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O'Reilly Media, Inc. 介绍 


O'Reilly Media 通过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研 究 和 会 议 等 方式 传播 创新 知识 。 自 
1978 年 开始 ，O'Reilly 一 ARIER RIDEK AEA 超级 极 客 们 正在 开创 着 未 
来 ， 而 我 们 关注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 
o 作为 技术 社区 中 活跃 的 参与 者 ，O'Reilly 的 发 展 充 满 了 对 创新 的 倡导 、 创 造 和 发 
DHR. 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”;， 创 建 第 一 个 商业 网 站 CGNN) ; HRT 
影响 深远 的 开放 源 代 码 峰 会 ， 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 杂志 ， 从 而 成 
为 DIY 革命 的 主要 先锋 ;公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O'Reilly 的 
会 议和 话 会 集 于 了 众多 超级 极 窜 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 

思想 。 作为 控 术 信守 获取 信息 的 选择 ，O'Reilly 现在 还 将 先锋 专家 的 知识 传递 给 普 通 的 计 
算 机 用 户 。 无 论 是 通过 图 书 出 版 、 在 线 服 务 或 者 面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反映 
了 公司 不 可 动摇 的 理念 言 息 是 激发 创新 的 力量 。 
































































































































业界 评论 


“O'Reilly Radar $A O E. ” 














Wired 
“O'Reilly 凭借 一 系列 《真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业 
务 。 99 





Business 2.0 











“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 

















—CRN 











“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 








Trish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 ， 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如果 你 在 路 上 遇 到 贫 路 口 ， 走 小 路 《岔路 ) o HMI, 
Tim 似乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 不 


ie” 





























Linux Journal 





致 Marta， 用 我 全 心 全 意 的 爱 。 


a4. > 
BY a 


要 不 这 样 吧 ， 如 果 编 程 语言 里 有 个 地 方 你 弄 不 明白 ， 而 正好 又 有 个 人 用 了 这 个 功能 ， 
那 就 开 枪 把 他 打 死 。 这 比 学 习 新 特性 要 容易 些 ， 然 后 过 不 了 多 久 ， 那 些 活 下 来 的 程序 
员 就 会 开始 用 0.9.6 版 的 Python， 而 且 他 们 只 需要 使 用 这 个 版 本 中 易于 理解 的 那 一 小 
部 分 就 好 了 (上 甩 有 眼 )。1 























Tim Peters 


传奇 的 核心 开发 者 ，“Python 之 禅 " 作 者 








| 1 给 comp.lang.python Usenet 小 组 的 留言 ，2002 年 12 H 23 H, “Acrimony inc.Lp” Chttps://mail.python.org/pipermail/python- 
| list/2002-December/147293.htmD 。 





Python 官方 教程 〈https:/docs.python.org/3/tutorial/) 的 开头 是 这 样 写 的 : “Python 是 一 门 既 
容易 上 手 又 强大 的 编程 语言 。” 这 句 话 本 身 并 无 大 碍 ， 但 需要 注意 的 是 ， 正 因为 它 既 好 学 
又 好 用 ， 所 以 很 多 Python 程序 员 只 用 到 了 其 强大 功能 的 一 小 部 分 。 


只 需要 几 个 小 时 ， 经 验 丰富 的 程序 员 就 能 学 会 用 Python 写 出 实用 的 程序 。 然 而 随 着 这 最 
初 高 产 的 几 个 小 时 变 成 数 周 甚至 数 月 ， 在 那些 先入 为 主 的 编程 语言 的 影响 下 ， 开 发 者 们 会 
慢 慢 地 写 出 带 着 “口音 ”的 Python 代码 。 即 便 Python 是 你 的 初恋 ， 也 难 逃 此 命运 。 因 为 在 
学 校 里 ， 抑 或 是 那些 入 门 书 上 ， 教 授 者 往往 会 有 意 避 免 只 跟 语 言 本 身 相 关 的 特性 。 


另外 ， 向 那些 已 在 其 他 语言 领域 里 有 了 丰富 经 验 的 程序 员 介绍 Python 的 时 候 ， 我 还 发 现 
了 一 个 问题 : 人 们 总 是 倾向 于 寻求 自己 熟悉 的 东西 。 受 到 其 他 语言 的 影响 ， 你 大 概 能 猜 到 
Python 会 支持 正则 表达 式 ， 然 后 就 会 去 查阅 文档 。 但 是 如 果 你 从 来 没 见 过 元 组 拆 包 (tuple 
unpacking) ， 也 没 听 过 描述 符 〈descriptor) 这 个 概念 ， 那 么 估计 你 也 不 会 特地 去 搜索 它 
们 ， 然 后 就 永远 失去 了 使 用 这 些 Python 独 有 的 特性 的 机 会 。 这 也 是 本 书 试图 解决 的 一 个 
问题 。 


这 本 书 并 不 是 一 本 完备 的 Python 使 用 手册 ， 而 是 会 强调 Python 作为 编程 语言 独 有 的 特 
性 ， 这 些 特性 或 者 是 只 有 Python 才 具 备 的 ， 或 者 是 在 其 他 大 众 语言 里 很 少见 的 。Python 
语言 核心 以 及 它 的 一 些 库 会 是 本 书 的 重点 。 尽 管 Python 的 包 索 引 现 在 已 经 有 6 万 多 个 库 
了 ， 而 且 其 中 很 多 都 异常 实用 ， 但 是 我 几乎 不 会 提 到 Python 标准 库 以 外 的 包 。 




































































目标 读者 


本 书 的 目标 读者 是 那些 正在 使 用 Python, SCARE Python 3 的 程序 员 。 如 果 你 懂 Python 
2， 但 是 想 迁 移 到 Python 3.4 或 者 更 新 的 版 本 ， 也 没 问题 。 在 写 这 本 书 的 时 候 ， 大 多 数 专 
业 Python 程序 员 用 的 还 是 Python 2， 因 此 如 果 书 中 出 现 来 自 Python 3 的 特性 ， 读 者 可 能 会 
感到 陌生 ， 我 也 会 特别 地 做 出 解释 。 


然而 ， 本 书 的 主要 目的 是 为 了 充分 地 展现 Python 3.4 的 魅力 ， 因 此 我 不 会 一 字 一 句 地 说 明 
如 何 让 本 书 的 代码 在 旧版 本 里 正常 运行 。 本 书 中 的 大 多 数 例子 稍 做 修改 (甚至 不 用 修改 ) 
就 可 以 在 Python 2.7 里 面 跑 起 来 ， 但 是 有 些 例子 ， 如 果 追 求 向 下 兼容 ， 就 会 需要 大 量 的 重 
写 。 


话 虽 如 此 ， 我 还 是 认为 ， 即 便 你 无 法 从 Python 2.7 里 脱身 ， 这 本 书 也 会 对 你 很 有 帮助 ， 
为 Pyhon 语言 的 核心 概念 是 不 会 变 的 。Python 3 也 不 是 一 门 全 新 的 语言 ， 大 多 数 的 改动 花 
一 下 午 大 概 就 能 适应 ， 官 方 文 档 里 “Python 3.0 的 新 特性 ”一 节 
Chttps://docs.python.org/3.0/whatsnew/3.0.html) 就 是 很 好 的 切入 点 。 固 然 ， 自 2009 年 发 布 
以 来 ，Python 3.0 也 在 变化 ， 但 是 这 些 变化 比 起 Python 3.0 和 Python 2.0 之 间 的 区 别 ， 并 没 
有 那么 重要 。 


如 果 你 尚 不 清楚 自己 对 Python 的 熟悉 程度 能 否 跟 得 上 本 书 的 内 容 ， 建 议 你 回头 看 看 
Python ECA BURL EE, REALE Python 3 的 新 特性 有 关 ， 教 和 里 的 其 他 内 容 本 书 不 会 


















































非 目标 读者 


如 果 你 才刚 刚 开 始 学 Python， 本 书 的 内 容 可 能 会 显得 有 些 “ 超 纲 ”"。 比 难 懂 更 糟 的 是 ， 如 果 

在 学 习 Python 的 过 程 中 过 早 接 触 本 书 的 内 容 ， 你 可 能 会 误 以 为 所 有 的 Python 代码 都 应 该 

oea ee (metaprogramming) 技巧 。 我 们 知道 ， 不 成 熟 的 抽象 和 过 早 的 优 
8 会 坏事 。 























本 书 的 结构 


如 果 你 是 本 书 的 目标 读者 ， 那 你 应 该 可 以 从 本 书 的 任意 一 章 开始 阅读 ， 但 是 如 果 按 照 我 写 
作 时 的 构思 来 的 话 ， 本 书 一 共 分 为 六 个 独立 的 部 分 ， 每 个 部 分 内 的 章节 最 好 按照 顺序 来 


读 。 


在 介绍 让 你 自己 实现 某 些 功能 的 方法 之 前 ， 我 通常 会 先 把 现成 可 用 的 工具 讲 清楚 。 比 如 说 
第 二 部 分 的 第 2 章 履 盖 了 序列 类 型 (sequence type) ， 但 是 像 collections .deque 这 种 
类 可 能 就 会 一 带 而 过 。 一 直到 第 四 部 分 ， 我 们 才 会 看 看 如 何 从 抽象 基 类 (abstract base 
class, ABC) 中 获 利 ， 抽 象 基 类 则 被 封装 在 collections.abc 这 个 包 里 。 如 果 想 创建 自 
己 的 ABC， 你 可 能 得 看 到 第 四 部 分 的 最 后 一 些 内 容 才 行 ， 因 为 我 一 直觉 得 ， 如 果 没 有 就 
练 使 用 ABC 的 经 验 ， 贸 然 去 实现 一 套 自己 的 东西 是 不 合适 的 。 


这 样 做 有 几 个 好 处 。 第 一 ， 知 道 有 什么 现成 的 工具 可 用 ， 能 避免 重新 发 明 轮 子 。 上 毕竟 我 们 
使 用 现 有 和 集合 类 型 (collection type) 的 概率 要 远大 于 自己 动手 写 一 套 新 的 。 第 二 ， or 
来 ， 在 讨论 如 何 写 新 类 型 之 前 ， 我 们 能 够 有 更 多 的 机 会 米 了 解 这 些 现 成 类 的 品级 用 法 。 第 
三 ， 比 起 从 零 开 始 构建 一 个 ABC， 继 承 已 有 的 ABC 库 应 该 会 简单 一 些 。 最 后 ， 我 认为 在 
看 过 一 些 实际 的 案例 之 后 ， 理 解 抽象 会 更 轻松 。 


当然 ， 这 样 也 会 带 来 一 些 不 便 之 处 ， 比 如 书 里 的 向 前 引用 就 会 分 散在 各 个 不 同 的 章节 里 
面 。 但 是 经 过 上 述 这 番 梳 理 ， 我 想 这 一 点 不 便 之 处 也 是 可 以 容忍 的 。 


面 是 本 书 每 一 部 分 的 主题 。 





















































































































































一 部 分 只 有 单独 的 一 章 ， 讲 解 的 是 Python 的 数据 模型 (data model) ， 以 及 如 何 为 
了 保证 行为 一 致 性 而 使 用 特殊 方法 kw repr) 2 毕竟 Python 的 一 致 性 是 出 了 名 
的 。 其 实 整 本 书 几乎 都 是 在 讲解 Python 的 数据 模型 ， 第 1 章 算 是 一 个 概览 。 


第 二 部 分 


第 二 部 分 包含 了 各 种 集合 类 型 ; 序列 Csequence) . WE Cmapping) 和 集合 

ane ; ， 另 外 ; 还 提 及 了 字符 串 和 字 节 序列 (bytes) 的 区 分 。 说 起 来 ， 最 后 这 一 
点 也 是 让 亲 者 (Python3 用 户 ) 快 ， 仇 者 (Python 2 用 户 ) 痛 的 一 个 关键 ， 因 为 这 个 区 分 

致使 Python 2 代码 迁移 到 Python 3 的 难度 陡 增 。 第 二 部 分 的 目标 是 帮助 读者 回忆 起 Python 
内 置 的 类 库 ， 顺 带 解释 这 些 类 库 的 一 ip a 具体 的 例子 有 Python 3 如 何在 我 
们 观察 不 到 的 地 方 对 dict 的 键 重新 排序 ， 或 者 是 排序 有 区 域 Clocale) 依赖 的 字符 串 时 

的 注意 事项 。 为 了 达到 本 部 分 的 目标 ， 有 些 地 方 的 讲解 会 比较 大 而 全 ， 像 序列 类 型 和 映射 
类 型 的 变种 就 是 这 样 有 时 则 会 写 得 很 深入 ， 比 方 说 我 会 对 dict 和 set 底层 的 散 列 表 进 
行 深层 次 的 讨论 。 


第 三 部 分 
如 何 把 函数 作为 一 等 对 象 (first-order object) 来 使 用 。 第 三 部 分 首先 会 解释 前 面 这 人 句 







































































话 是 什么 意思 ， 然 后 话题 延伸 到 这 个 概念 对 那些 被 广泛 使 用 的 设计 模型 的 影响 ， 
会 看 到 如 何 利用 闭 包 (closure) 的 概念 来 实现 函数 装饰 器 (function decorator) 。 这 一 部 
分 的 话题 还 包括 Python 的 这 些 基 本 概念 : 可 调用 〈callable) 、 函 数 属性 TERS 
attribute) 、 内 省 (introspection) 、 参 数 注 解 (parameter annotation) 和 Python 3 里 新 出 现 
的 nonlocal 声明 。 


第 四 部 分 


到 了 这 里 ， 书 的 重点 转移 到 了 类 的 构建 上 上面。 虽然 在 第 二 部 分 里 的 例子 里 就 有 类 声明 
(class declaration) 的 出 现 ， 但 是 第 四 部 分 会 号 E 现 更 多 的 类 。 和 任何 面向 对 象 语 守 一 样 
Python 还 有 些 自 己 的 特性 ， 这 些 特性 可 能 并 不 会 出 现在 你 我 学 习 基 于 类 的 编程 的 语言 中 。 
这 一 部 分 的 章 三 解释 了 引用 (reference) 的 原理 、 “可 变性 ”的 概念 、 实 例 的 生命 周期 、 如 
人 类 型 和 ABC、 多 重 继承 该 怎么 理 顺 、 什 么 时 候 应 该 使 用 操作 符 重 载 
及 其 方法 。 


第 五 部 分 


Python 中 有 些 结构 和 库 不 再 满足 于 诸如 条 件 判断 、 循 环 和 子 程序 〈subroutine) 之 类 的 
顺序 控制 流程 ， 第 五 部 分 的 笔墨 会 集中 在 这 些 构造 和 库 上 。 我 们 会 从 生成 器 (generator) 
起 步 ， 然 后 话题 会 转移 到 上 下 文 管理 器 (context manager) 和 协 程 Ccoroutine) ， 其 中 会 
涵盖 新 增 的 功能 强大 但 又 不 容易 理解 的 yield from 语法 。 这 一 部 分 以 并 发 性 和 面向 事件 
的 VO 来 结尾 ， 其 中 跟 并 发 性 相关 的 是 collections.futures 这 个 很 新 的 包 ， 它 借助 
futures 包 把 线程 和 进程 的 概念 给 封装 了 起 来 :而 跟 面 向 事件 IO 相关 的 则 是 asyncio， 
它 的 背后 是 基于 协 程 和 yield from 的 futures 包 。 


第 六 部 分 


第 六 部 分 的 开头 会 讲 到 如 何 动态 创建 带 属 性 的 类 ， 用 以 处 理 诸如 ISON 这 类 半 结 构 化 
的 数据 。 然 后 会 从 大 家 已 经 熟悉 的 特性 (property) 机 制 入 手 ， 用 描述 符 从 底层 来 解释 
Python 对 象 属性 的 存 取 。 同 时 ， 函 数 、 方 法 和 描述 符 的 关系 也 会 被 梳理 一 遍 。 第 六 部 分 会 
从 头 至 尾 地 实现 一 个 字段 验证 器 ， 在 这 个 过 程 中 我 们 会 遇 到 一 些微 妙 的 问题 ， 然 后 在 最 后 
一 章 中 就 自然 引出 像 类 装饰 器 (class decorator) 和 元 类 (metaclass) 这 些 高 级 的 概念 。 
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以 实践 为 基础 


一 般 情 况 下， 我们 会 用 Python 的 交互 式 控制 台 来 探索 各 种 库 和 语言 本 身 。 有 些 读者 可 能 
对 静态 的 需要 编译 的 语言 更 熟悉 ， 但 是 这 些 语言 可 能 不 会 提供 REPL (read-eval-print 
loop， 读 取 、 求 值 、 输出 的 循环 )。 在 这 里 我 想 强调 一 下 Python 交互 式 控制 台 ， 也 就 是 
REPL， 作 为 一 个 学 习 工 具 的 重要 性 。 


a Chttps://docs.python.org/3/library/doctest.html) 是 Python 的 一 个 标准 库 ， 做 测试 用 

。 这 个 库 通 过 模拟 控制 台 对 话 来 检验 表达 式 求 值 是 否 正 确 ， 而 本 书 中 几乎 所 有 代码 的 测 
i 包括 那些 在 控制 台 里 的 输出 ， 都 是 通过 这 个 库 来 进行 的 。doctest 看 起 来 就 像 是 Python 
oo 剧本 ， 你 甚至 都 不 需要 了 解 它 背后 的 运行 机 制 就 可 以 直接 用 它 来 试验 书 里 
各 例子。 


我 有 时 为 了 事先 说 明 一 段 代码 的 目的 ， 会 在 展示 代码 之 前 先 摆 出 相应 的 doctest 文本 。 这 
是 因为 我 认为 ， 在 考虑 如 何 实现 一 个 功能 之 前 ， 先 严格 地 列 出 这 个 功能 能 做 什么 ， 这 能 帮 
助 我 们 在 编程 时 把 精力 花 在 该 花 的 地 方 。 测 试 驱动 开发 (TDD) 的 精髓 就 是 先 写 测试 ， 我 
后 来 发 现 这 种 精神 在 教学 中 也 是 大 有 益处 的 。 如 果 你 对 doctest 还 不 熟悉 ， 花 点 时 间 阅 读 
它 的 文档 Chttps://docs.python.org/3/library/doctest.html) 。 结 合 本 书 的 源码 
(https://github.com/fluentpython/example-code) ， 你 可 以 在 操作 系统 的 控制 台 里 键入 
python3 -m doctest example_script. py 来 验证 书 中 几乎 所 有 代码 的 正确 性 。 
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使 件 


书 中 有 一 些 人 















































理 器 虽然 慢 





向 单 的 时 间 和 基准 测试 ， 跑 这 些 测试 的 时 候 我 用 的 是 写 书 时 的 两 台 笔 记 本 电 
脑 。 一 台 是 产 于 2011 年 的 MacBook Pro 13 英寸 笔 记 本 ， 配置 是 2.7 GHz 的 英特尔 Core i7 
处 理 器 、8GB 的 内 存 和 机 械 硬盘 ， 另 一 台 是 产 于 2014 年 的 MacBook Air 13 英寸 笔记 本 ， 


些 ， 











配置 是 1.4 GHz 的 英特尔 Core i5 处 理 器 、4GB 内 存 和 一 个 固态 硬盘 。MacBook Air 的 处 











内 存 也 没有 男 一 台 多 ， 但 是 它 的 内 存 快 一 些 (1600 MHz, MacBook Pro 








13 英寸 则 是 1333 MHz) ， 另 外 它 的 硬盘 也 更 快 ， 因此 在 日 常 使 用 中 我 并 没有 感觉 到 两 台 
笔记 本 有 速度 上 的 差异 。 








杂谈 : SAIN AE 


从 1998 年 起 ， 我 一 直 在 使 用 Python， 也 做 Python 教学 ， 另 外 还 一 直 在 为 它 辩 护 。 我 一 直 
都 很 享受 这 个 过 程 ， 尤 其 是 喜欢 研究 Python 同 其 他 语言 在 设计 和 理论 上 的 不 同 。 因 此 在 
有 些 章节 的 最 后 ， 我 会 加 上 一 点 自己 对 Python 以 及 其 他 语言 的 看 法 ， 我 把 这 部 分 叫 作 “ 杂 
谈 ”。 如 果 你 对 这 些 东 西 不 感 兴趣 ， 跳 过 即 可 ， 因 为 这 些 并 不 是 必 读 的 。 





























Python if K 


我 希望 这 本 书 不 仅仅 是 关于 Python 的 ， 也 是 关于 Python 的 文化 的 。 在 过 去 20 多 年 的 交流 
H, Python 社区 形成 了 它 独 有 的 行 话 和 缩写 。 本 书 的 最 后 有 一 部 分 叫 "Python RER”, E 
面 列 出 了 在 Python 爱好 者 中 具有 特别 意义 的 词句 。 























Python 版 本 表 


本 书 所 有 的 代码 都 在 Python 3.4 里 测试 过 ， 而 且 是 应 用 最 广 的 用 C 实现 的 CPython 3.4。 只 
有 一 个 例外 ， 在 13.4 节 中 的 “Python 3.5 新 引入 的 中 级 运算 符 @” 附 注 栏 里 ， 我 提 到 了 新 的 
@ 运算 符 ， 它 只 在 Python 3.5 里 被 支持 。 


凡是 支持 Python 3.x 的 解释 器 一 一 包括 PyPy3 2.4.0 一 一 都 可 以 运行 书 里 的 代码 Soe 
2.4.0 其 实 已 经 支持 Python 3.2.5) 。 有 一 点 需要 注意 的 是 ，yield from 和 asyncio 只 在 
Python 3.3 或 者 更 新 的 版 本 里 才 有 。 


几乎 所 有 的 代码 稍 做 修改 后 都 能 在 Python 2.7 里 运行 ， 除 了 第 4 章 中 那些 跟 Unicode 相关 
的 例子 ， 这 是 从 Python 3 出 现 以 来 就 有 的 问题 。 
































排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 楷 体 
表示 新 术语 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 
句 和 关键 字 等 。 
。 加 粗 等 宽 字体 (constant width bold) 





表示 应 该 由 用 户 输 入 的 命令 或 其 他 文本 。 
e 等 宽 斜 体 (Constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 蔡 换 的 文本 。 








该 图 标 表示 提示 或 建议 。 


An 图 标 表 示 一 般 注 记 。 








该 图 标 表示 警告 或 警示 。 


使 用 代码 示例 


书 中 的 所 有 完整 代码 和 大 多 数 程序 片段 都 可 以 从 本 书 的 GitHub 代码 库 中 获取 
Chttps://github.com/fluentpython/example-code) 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 : “Fluent Python by Luciano Ramalho (O'Reilly). Copyright 2015 
Luciano Ramalho, 978-1-491-94600-8.” 











Safari® Books Online 


S Safari 


afari Books Onlinehttp://www.safaribooksonline.com) 是 应 运 而 生 的 数字 图 书馆 。 它 同时 以 
图 书 和 视频 的 形式 出 版 世界 顶级 技术 和 商务 作家 的 专业 作品 。 


技术 专家 、 软 件 开发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 
题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 


对 于 组 织 团体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定价 策 
略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice Hall 
Professional. Addison-Wesley Professional. Microsoft Press. Sams. Que. Peachpit Press. 
Focal Press. Cisco Press. John Wiley & Sons. Syngress. Morgan Kaufmann, IBM 
Redbooks. Packt. Adobe Press. FT Press. Apress. Manning. New Riders. McGraw- 
Hill, Jones & Bartlett. Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 于 种 图 书 、 培 训 视 频 
和 正式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 

















联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 “SW AJL SC AB 807 28 (100035) 
RAAB hat) 有 限 公 司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那里 找到 本 书 的 相关 信息 ， 包 括 勘 误 表 、 示 
例 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : http://shop.oreilly.com/product/0636920032519.do 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 : bookquestions@oreilly.com 
THES O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 


http://www.oreilly.com 
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我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia 


致谢 


Josef Hartwig 设计 的 包 豪 斯 国际 象棋 套装 体现 了 最 佳 的 设计 理念 : 美观 、 简 洁 而 清晰 。 有 
一 位 建筑 师父 杀 ， 以 及 一 位 字体 设计 师弟 弟 ，Guido van Rossum 设计 出 了 一 门 经 典 的 编程 
语言 。 我 之 所 以 热衷 于 教授 Python， 也 正 是 因为 它 的 美观 、 简 洁 和 清晰 。 


Alex Martelli 和 Anna Ravenscroft 是 最 先 看 到 本 书 大 纲 的 人 ， 也 是 他 们 惑 励 我 把 大 纲 交 给 
O'Reilly 出 版 社 的 。 他 们 的 书 不 但 向 我 展示 了 地 道 的 Python 代码 ， 还 让 我 见识 了 什么 才 称 
得 上 是 清晰 、 准 确 和 有 深度 的 技术 写作 。Alex 在 Stack Overflow 上 的 5000 多 个 回答 

(http://stackoverflow.com/users/95810/alex-martelli》 也 体现 了 他 对 Python 语言 基础 和 正确 
用 法 的 深入 理解 。 


Martelli 和 Ravenscroft 同时 也 是 本 书 的 技术 审 稿 人 。 除 了 他 们 之 外 ， 技 术 审 稿 人 还 有 两 
位 : Lennart Regebro 和 Leonardo Rochael。 技 术 审 稿 团 队 里 的 每 个 人 都 至 少 有 15 年 的 
Python 经 验 ， 为 许 许 多 多 具有 广泛 影响 力 的 Python 项 目 贡献 过 代码 ， 并 且 跟 社区 里 的 其 
他 开发 者 走 得 很 近 。 审 稿 人 一 共 提 出 了 数 百 个 修订 、 建 议 、 问 题 和 观点 ， 为 这 本 书 做 出 了 
巨大 贡献 。 另 外 ，Victor Stinner 帮 我 审阅 了 第 18 章 ， 他 同时 也 是 该 章 里 提 到 的 asyncio 
的 维护 者 之 一 。 在 过 去 的 几 个 月 里 能 够 跟 他 们 合作 ， 我 感到 很 荣 季 。 


本 书 编辑 Meghan Blanchette 是 一 位 出 色 的 导师 。 她 不 但 帮助 我 梳理 整 本 书 的 结构 、 增 强 内 
容 的 连贯 性 ， 还 为 我 指出 哪里 写 得 不 够 有 趣 ， 并 且 督 促 我 及 时 交 稿 。Brian MacDonald 在 
Meghan 休假 的 时 候 帮忙 编辑 了 第 三 部 分 。 跟 他 们 以 及 O'Reilly 的 所 有 人 打交道 的 过 程 都 
十 分 愉快 。 另 外 Atlas 系统 的 开发 和 支持 团队 也 很 棒 CAtlas 是 O'Reilly 的 图 书 出 版 平台 ， 
我 就 是 在 这 个 平台 上 写作 的 ) 。 


Mario Domenech Goulart 在 看 过 本 书 第 一 次 提前 发 行 的 版 本 后 ， 提 供 了 海量 的 详细 建议 。 
另外 我 还 从 Dave Pawson, Elias Dorneles, Leonardo Alexandre Ferreira Leite. Bruce 

Eckel. J. S. Bueno, Rafael Gonçalves, Alex Chiaranda., Guto Maia, Lucas Vido 和 Lucas 
Brunialti 那里 获得 了 宝贵 的 反馈 。 


几 年 来 有 很 多 人 都 在 劝 我 写 书 ，Rubens Prates, Aurelio Jargas、Ruda Moura 和 Rubens 

Altimari 这 几 位 算是 最 有 说 服 力 的 了 。Mauricio Bussab 算得 上 带 我 入 门 的 人 ， 并 且 他 让 我 
有 了 第 一 次 写 书 的 尝试 。Renzo Nuccitelli 室 不 在 乎 这 本 书 的 写作 可 能 会 影响 到 我 们 合作 的 
python.pro.br 项 目的 进度 ， 他 从 一 开始 就 大 力 文 持 。 


Python 巴西 社区 是 一 个 集思广益 、 乐 于 分 享 且 充满 乐趣 的 地 方 。Python 巴西 小 组 

(https://groups.google.com/group/python-brasil) 中 有 数 千 个 人 ， 每 次 的 全 国 范围 的 会 议 都 
会 把 成 百 上 千 人 聚集 在 一 起 。 在 我 的 Python 爱好 者 成 长 之 路 上 ， 对 我 影响 最 大 的 人 有 : 
Leonardo Rochael、Adriano Petrich、 Daniel Vainsencher、 Rodrigo RBP Pimentel, Bruno 
Gola, Leonardo Santagada, Jean Ferri. Rodrigo Senra, J. S. Bueno. David Kwast, Luiz 
Irber. Osvaldo Santana, Fernando Masanori. Henrique Bastos, Gustavo Niemayer. Pedro 
Werneck, Gustavo Barbieri, Lalo Martins. Danilo Bellini 和 Pedro Kroger. 


Dorneles Tremea 是 个 非常 棱 的 朋友 (他 很 愿意 花 时 间 分 享 他 的 知识 ) ， 他 不 但 是 很 厉害 
的 开发 者 ， 还 是 巴西 Python 协会 中 最 鼓舞 人 心 的 领导 人 。 可 惜 他 过 早 离开 了 我 们 。 




























































































































































































我 的 学 生 们 同时 也 是 我 的 老师 ， 他 们 的 问题 、 见 解 、 反 馈 和 那些 富有 创造 性 的 回答 教会 了 
我 很 多 。Erico Andrei 和 Simples Consultoria 让 我 头 一 次 有 机 会 集中 精力 做 一 名 Python 教 
师 。 


Martijn Faassen 是 我 的 Grok 导师 ， 他 同 我 分 享 了 很 多 关于 Python 和 尼 安 德 特 人 的 想法 。 
Martijn 所 做 的 事情 ， 还 有 来 自 Zope、Plone 和 Pyramid planets 的 Paul Everitt. Chris 
McDonough, Tres Seaver. Jim Fulton, Shane Hathaway, Lennart Regebro, Alan Runyan, 
Alexander Limi. Martijn Pieters 和 Godefroid Chapelle 等 人 所 做 的 事情 ， 在 我 事业 发 展 的 过 
程 中 起 到 了 决定 性 的 作用 。 多 亏 了 Zope 和 第 一 波 互 联网 浪潮 ， 让 我 在 1998 年 就 开始 从 事 
Python 相关 的 工作 并 以 此 为 生 。José Octavio Castro Neves 是 我 的 搭档 ， 我 们 在 巴西 开 了 第 
一 家 以 Python 业务 为 主 的 软件 公司 。 


在 更 广阔 的 Python 社区 当中 高 手 如 云 ， 我 实在 是 没 办 法 一 一 列 出 他 们 的 名 字 。 但 是 除了 
之 前 提 到 的 之 外 ， 我 还 要 感谢 Steve Holden, Raymond Hettinger, A.M. Kuchling、David 
Beazley, Fredrik Lundh、 Doug Hellmann, Nick Coghlan. Mark Pilgrim, Martijn Pieters, 
Bruce Eckel. Michele Simionato, Wesley Chun, Brandon Craig Rhodes. Philip Guo, Daniel 
Greenfeld. Audrey Roy 和 Brett Slatkin， 感 谢 他 们 让 我 见识 到 更 新 更 好 的 教授 Python 的 方 
法 。 

我 基本 上 是 在 家 里 的 办 公 室 和 两 个 公共 空间 完成 这 本 书 的 写作 的 。 两 个 公共 空间 分 别 是 
CoffeeLab 和 Garoa Hacker Clube. CoffeeLab (http://coffeelab.com.br〉 是 位 于 巴西 圣保罗 


Vila Madalena 区 的 一 个 咖啡 极 客 大 本 营 。Garoa Hacker Clube (https://garoa.net.br〉 则 是 一 
个 开放 的 黑客 空间 ， 任 何人 都 可 以 在 这 里 实验 他 们 的 新 点 子 。 


Garoa 社区 还 为 我 提供 了 灵感 、 基 础 设施 和 放松 的 环境 ， 我 想 Aleph 会 喜欢 这 本 书 的 。 


我 的 母亲 Maria Lucia 和 父亲 Jairo 一 直 都 以 各 种 方式 支持 我 。 我 真希 望 我 的 父 杀 还 健在 并 
看 到 本 书 的 出 版 ， 同 时 也 为 能 与 我 的 母亲 分 享 这 本 书 而 感到 开心 。 

在 写 这 本 书 的 15 个 月 里 ， 身 为 丈夫 的 我 几乎 一 直 在 工作 ， 我 的 妻子 Marta Mello 陪 我 一 起 
效 过 了 这 段 日 子 。 在 这 如 同 跑马 拉 松 的 写作 过 程 中 ， 她 不 但 一 直 文 持 我 ， 而 且 在 我 想 要 放 
弃 的 时 候 陪 我 一 起 渡 过 难关 。 


谢谢 你 们 每 一 个 人 ， 谢 谢 你 们 做 的 每 一 件 事 。 























































































































电子 书 


扫描 如 下 


维 码 ， 即 可 购买 本 书 电 子 版 。 





3312 Python 数据 模型 


Guido 对 语言 设计 美学 的 深入 理解 让 人 震惊 。 我 认识 不 少 很 不 错 的 编程 语言 设计 者 ， 
他 们 设计 出 来 的 东西 确实 很 精彩 ， 但 是 从 来 都 不 会 有 用 户 。 Guido 知道 如 何在 理论 上 
做 出 一 定 妥协 ， 设 计 出 来 的 语言 让 使 用 者 觉得 如 沐 春风 ， 这 真是 不 可 多 得 。! 












































J en 
Jython 的 作者 ，Aspect 的 作者 之 一 ，.NET DLR 架构 师 


1 摘自 ‘Story of Jython” Chttp//hugunin.net/story_of jython.html) ， 这 是 Jython Essentials (Samuele Pedroni 和 Noel Rappin 
3%, O'Reilly Whitt, 2002 Œ) 一 书 的 序 














Python 最 好 的 品质 之 一 是 一 致 性 。 当 你 使 用 Python 工作 一 会 儿 后 ， 就 会 开始 理解 Python 
语言 ， 并 能 正确 猜测 出 对 你 来 说 全 新 的 语言 特征 。 

然而 ， 如 果 你 带 着 来 自 其 他 面向 对 象 语言 的 经 验 进入 Python 的 世界 ， 会 对 
len(colleciton) 而 不 是 collection.len() 写法 觉得 不 适 。 当 你 进一步 理解 这 种 不 适 
感 背 后 的 原因 之 后 ， 会 发 现 这 个 原因 ， 和 它 所 代表 的 庞大 的 设计 思想 ， 是 形成 我 们 通常 说 
het i (Pythonic) 的 关键 。 这 种 设计 思想 完全 体现 在 Python 的 数据 模型 上 ， 而 
数据 模型 所 描述 的 API， 为 使 用 最 地 道 的 语言 特性 来 构建 你 自己 的 对 象 提供 了 工具 。 


数据 模型 其 实 是 对 Python 框架 的 描述 ， 它 规范 了 这 门 语言 自身 构建 模块 的 接口 ， 这 些 模 
块 包 括 但 不 限于 序列 、 和 迭代 器 、 函 数 、 类 和 上 下 文 管理 器 。 


不 管 在 哪 种 框架 下 写 程序 ， 都 会 花费 大 量 时 间 去 实现 那些 会 被 框架 本 身 调 用 的 方法 ， 
Python 也 不 例外 。Python 解释 器 碰 到 特殊 的 句法 时 ， 会 使 用 特殊 方法 去 激活 一 些 基本 的 对 
象 操作 ， 这 些 特殊 方法 的 名 字 以 两 个 下 划 线 开头 ， 以 两 个 下 划 线 结尾 例如 
__getitem_) 。 比 如 obj[key] 的 背后 就 是 ”getitem _ 方法 ， 为 了 能 求 得 
my_collection[key] 的 值 ， 解 释 器 实际 上 会 调用 
my_collection. getitem (key). 
这 些 特殊 方法 名 能 让 你 自己 的 对 象 实现 和 支持 以 下 的 语言 构架 ， 并 与 之 交互 : 

e TEAC 

。 集合 类 

。 属性 访问 

。 运算 符 重 载 

。 函数 和 方法 的 调用 

。 对象 的 创建 和 销毁 
字符 串 表 示 形 式 和 格式 化 
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~I magic 和 dunder 


魔术 方法 (magic method) 是 特殊 方法 的 昵称 。 有 些 Python 开发 者 在 提 到 

_ getitem _ 这 个 特殊 方法 的 时 候 ， 会 用 诸如 “下 划 线 一 下 划 线 一 getitenr” 这 种 说 
法 ， 但 是 显然 这 种 说 法 会 引起 歧义 ， 因 为 像 _x 这 种 命名 在 Python 里 还 有 其 他 含 
义 ，3 但 是 如 果 完 整地 说 出 “下 划 线 一 下 划 线 一 getitem 一 下 划 线 一 下 划 线 "， 又 会 很 麻 
烦 。 于 是 我 跟着 Steve Holden， 一 位 技术 书 作 者 和 老师 ， 学 会 了 “ 双 下 一 

getitem” (dunder-getitem) 这 种 说 法 。 于 是 乎 ， 特 殊 方法 也 叫 双 下 方法 Cdunder 
method) 。 


tH 















































2 即 under-under-getitme 的 直译 。 一 一 译 者 注 








| 3 注 3: 详 见 97 节 。 











4 我 是 从 Steve Holden 那里 第 一 次 听 说 dunder 这 个 说 法 的 。 根 据 维基 百科 的 解释 ，Mark Johnson 和 Time Hochberg 是 最 
早 在 书写 中 开始 使 用 这 个 词 的 人 〈httpsyWen.wikipedia.org/wikiReserved_ word#Reserved ranges) 。 那 是 2002 年 9 月 26 
日 ， 他 们 两 人 在 邮件 列表 里 回复 < 《〈 双 下 划 线 ) BARZ? ”这 个 问题 时 提 到 了 dunder， 最 先 回复 的 是 
Johnson Chttps://mail.python.org/pipermail/python-list/2002-September/112991.html) , 11 分 钟 后 Hochberg 也 回复 了 

Chttps://mail.python.org/pipermail/python-list/2002-September/114716.html) 。 

































































1.1 一 操 Python 风 格 的 纸牌 


接 下 来 我 会 用 一 个 非常 简单 的 例子 来 展示 如 何 实现 getitme #l__len__ 这 两 个 特殊 
方法 ， 通 过 这 个 例子 我 们 也 能 见识 到 特殊 方法 的 强大 。 


示例 1-1 里 的 代码 建立 了 一 个 纸牌 类 。 
示例 1-1 一 所 有 序 的 纸牌 























import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_ (self): 
return len(self._cards) 


def getitem (self, position): 
return self._cards[position] 











首先 ， 我 们 用 collections .namedtuple 构建 了 一 个 简单 的 类 来 表示 一 张 纸 牌 。 自 
Python 2.6 开始 ，namedtuple 就 加 入 到 Python 里 ， 用 以 构建 只 有 少数 属性 但 是 没有 方法 
的 对 象 ， 比 如 数据 库 条 目 。 如 下 面 这 个 控制 台 会 话 所 示 ， 利 用 namedtuple， 我 们 可 以 很 
轻松 地 得 到 一 个 纸牌 对 象 : 


























>>> beer card = Card('7', 'diamonds') 
>>> beer_card 


Card(rank='7', suit='diamonds' ) 











当然 ， 我 们 这 个 例子 主要 还 是 关注 FrenchDeck 这 个 类 ， 它 既 短 小 又 精 悍 。 首 先 ， 它 跟 任 
何 标准 Python 集合 类 型 一 样 ， 可 以 用 len( ) KAREA- AMALDIR: 




















>>> deck = FrenchDeck() 
>>> len(deck) 
52 














从 一 琶 牌 中 抽取 特定 的 一 张 纸 牌 ， 比 如 说 第 一 张 或 最 后 一 张 ， 是 很 容易 的 :deck[86] 或 
deck[-1]。 这 都 是 由 getitem _ 方法 提供 的 : 


>>> deck[@] 
Card(rank='2', suit='spades') 



































>>> deck[-1] 
Card(rank='A', suit='hearts') 

















我 们 需要 单独 写 一 个 方法 用 来 随机 抽取 一 张 纸牌 吗 ? 没 必 要 ，Python 已 经 内 置 了 从 一 个 序 
列 中 随机 选 出 一 个 元 素 的 函数 random.choice， 我 们 直接 把 它 用 在 这 一 摆 纸 牌 实例 上 就 
好 : 








>>> from random import choice 
>>> choice(deck) 
Card(rank='3', suit='hearts') 
>>> choice(deck) 
Card(rank='K', suit='spades') 
>>> choice(deck) 
Card(rank='2', suit='clubs') 











现在 已 经 可 以 体会 到 通过 实现 特殊 方法 来 利用 Python 数据 模型 的 两 个 好 处 。 


。 作为 你 的 类 的 用 户 ， 他 们 不 必 去 记 住 标准 操作 的 各 式 名 称 〈“ 怎 么 得 到 元 素 的 总 数 ? 
是 .size() 还 是 .length() 还 是 别 的 什么 ? ”) 。 


。 可 以 更 加 方便 地 利用 Python 的 标准 库 ， 比 如 random.choice 函数 ， 从 而 不 用 重新 发 
明 轮 子 。 


而 且 好 戏 还 在 后 面 。 


因为 ”getitem _ 方法 把 [] 操作 交 给 了 self._cards 列表 ， 所 以 我 们 的 deck 类 自动 
支持 切片 〈slicing) 操作 。 下 面 列 出 了 查看 一 摆 牌 最 上 面 3 张 和 只 看 牌 面 是 A 的 牌 的 操 
作 。 其 中 第 三 种 操作 的 具体 方法 是 ， 先 抽出 索引 是 12 的 那 张 牌 ， 然 后 每 隔 13 张 牌 拿 1 
aK: 


























>>> deck[ :3] 
[Card(rank='2', suit='spades'), Card(rank='3', suit='spades'), 
Card(rank='4', suit='spades') ] 


>>> deck[12::13] 
[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 











另外 ， 仅 仅 实 现 了 __getitem_ 方法， 这 一 摆 牌 就 变 成 可 和 迭代 的 了 : 





>>> for card in deck: # doctest: +ELLIPSIS 
print(card) 

Card(rank='2', suit='spades') 

Card(rank='3', suit='spades') 

Card(rank='4', suit='spades') 








反 向 迭代 也 没关系 : 





>>> for card in reversed(deck): # doctest: +ELLIPSIS 
P print(card) 
Card(rank='A', suit='hearts') 


Card(rank='K', suit='hearts') 
Card(rank='Q', suit='hearts' ) 


` doctest 中 的 省 略 


为 了 尽 可 能 保证 书 中 的 Python 控制 台 会 话 内 容 的 正确 性 ， 这 些 内 容 都 是 直接 从 
doctest 里 摘录 的 。 在 测试 中 ， 如 果 可 能 的 输出 过 长 的 话 ， 那 么 过 长 的 内 容 就 会 被 如 
上 面 例子 的 最 后 一 行 的 省 略 号 〈...) 所 替代 。 #doctest: +ELLIPSIS 
这 个 指令 来 保证 doctest 能 够 通过 。 要 是 你 自己 照 着 书 中 例子 在 控制 台中 敲 代码 ， 可 
以 略 过 这 一 指令 。 


迭代 通常 是 隐 式 的 ， 壁 如 说 一 个 集合 类 型 没有 实现 __contains Vik, MA in 运算 符 
就 会 按 顺 序 做 一 次 迭代 搜索 。 于 是 ，in 运算 符 可 以 用 在 我 们 的 FrenchDeck 类 上 ， 因 为 
它 是 可 迭代 的 : 




































































>>> Card('Q', ‘hearts') in deck 
True 
>>> Card('7', ‘beasts') in deck 
False 


那么 排序 呢 ? 我 们 按照 常规 ， 用 点 数 来 判定 扑克 牌 的 大 小 ，2 最 小 、A 最 大 ; 同时 还 要 加 
上 对 花色 的 判定 ， 黑 桃 最 大 、 红 桃 次 之 、 方 块 再 次 、 梅 花 最 小 。 下 面 就 是 按照 这 个 规则 来 
给 扑克 有 牌 排序 的 函数 ， 梅 花 2 的 大 小 是 86， 黑 桃 A 是 51: 



































suit values = dict(spades=3, hearts=2, diamonds=1, clubs=@) 
def spades_high(card): 


rank_value = FrenchDeck.ranks.index(card.rank) 
return rank_value * len(suit_values) + suit_values[card.suit] 





有 了 spades high 函数 ， 就 能 对 这 操 牌 进行 升序 排序 了 : 








>>> for card in sorted(deck, key=spades_ high): # doctest: +ELLIPSIS 
š print(card) 

Card(rank='2' ， suit='clubs') 

Card(rank='2', suit='diamonds' ) 

Card(rank='2', suit='hearts') 
. (46 cards ommitted) 

Card(rank='A', suit='diamonds' ) 

Card(rank='A', suit='hearts') 

Card(rank='A', suit='spades' ) 











虽然 FrenchDeck 隐 式 地 继承 了 object %, > 但 功能 却 不 是 继承 而 来 的 。 我 们 通过 数据 
模型 和 一 些 合成 来 实现 这 些 功能 。 通过 实现 len 和 getitem _ 这 两 个 特殊 方 

法 ，FrenchDeck 就 跟 一 个 Python 自 有 的 序列 数据 类 型 一 样 ， 可 以 体现 出 Python 的 核心 
语言 特性 Cp its FANT Fe 。 同 时 这 个 类 还 可 以 用 于 标准 库 中 诸如 

random.choice, reversed 和 sorted 这 些 函 数 。 另 外 ， 对 合成 的 运用 使 得 len_ fil 
_ getitem_ _ 的 具体 实现 可 以 代理 给 self. cards 这 个 Python 列表 CH list 对 象 ) 。 









































5 在 Python 2 中 ， 对 object 的 继承 需要 显 式 地 写 为 FrenchDeck(object); 而 在 Python 3 中 ， 这 个 继承 关系 是 默认 
的 。 


` 如 何 洗 牌 


按照 目前 的 设计 ，FrenchDeck 是 不 能 洗 牌 的 ， 因 为 这 操 牌 是 不 可 变 的 
Gimmutable) : 卡 牌 和 它们 的 位 置 都 是 固定 的 ， 除 非 我 们 破坏 这 个 类 的 封装 性 ， 直 
接 对 _cards 进行 操作 。 第 11 章 会 讲 到 ， 其 实 只 需要 一 行 代 码 来 实现 setitem_ _ 
方法 ， 洗 牌 功能 就 不 是 问题 了 。 








1.2 如何 使 用 特殊 方法 


首先 明确 一 点 ， 特 殊 方法 的 存在 是 为 了 被 Python 解释 器 调用 的 ， 你 自己 并 不 需要 调用 它 

们 。 也 就 是 说 没有 my_object. _len_() 这 种 写法 ， 而 应 该 使 用 len(my_obJject) 。 在 
执行 len(my_object) 的 时 候 ， 如 果 my_object 是 一 个 自 定义 类 的 对 象 ， 那 么 Python 会 
自己 去 调用 其 中 由 你 实现 的 ”len _ 方法 。 


然而 如 果 是 Python 内 置 的 类 型 ， 比 如 列表 (1ist) 、 字 符 串 (str) 、 字 节 序 列 
(bytearray) 等 ， 那 么 CPython 会 抄 个 近 路 ，__len__ 实际 上 会 直接 返回 
PyVarObject 里 的 ob_size 属性 。PyVarobject 是 表示 内 存 中 长 度 可 变 的 内 置 对 象 的 C 
语言 结构 体 。 直 接 读 取 这 个 值 比 调用 一 个 方法 要 快 很 多 。 


很 多 时 候 ， 特 殊 方 法 的 调用 是 隐 式 的 ， 比 如 for i in x: 这 个 语句 ， 背 后 其 实用 的 是 
iter(x)， 而 这 个 前 数 的 背后 则 是 x. iter__() 方法 。 当 然 前 提 是 这 个 方法 在 x 中 被 实 
现 了 。 


通常 你 的 代码 无 需 直接 使 用 特殊 方法 。 除 非 有 大 量 的 元 编程 存在 ， 直 接 调用 特殊 方法 的 频 
率 应 该 远 远 低 于 你 去 实现 它们 的 次 数 。 唯 一 的 例外 可 能 是 __init 方法， 你 的 代码 里 可 
能 经 常会 用 到 它 ， 目 的 是 在 你 自己 的 子 类 的 _init ”方法 中 调用 超 类 的 构造 器 。 

通过 内 置 的 函数 (例如 len、iter、str， 等 等 来 使 用 特殊 方法 是 最 好 的 选择 。 这 些 内 
置 函数 不 仅 会 调用 特殊 方法 ， 通 常 还 提供 额外 的 好 处 ， 而 且 对 于 内 置 的 类 来 说 ， 它 们 的 束 
度 更 快 。14.12 节 中 有 详细 的 例子 。 


不 要 自己 想 当然 地 随意 添加 特殊 方法 ， 比如 foo _ 之 类 的 ， 因 为 虽然 现在 这 个 名 字 没 
有 被 Python 内 部 使 用 ， 以 后 就 不 一 定 了 。 


1.2.1 模拟 数值 类 型 


利用 特殊 方法 ， 可 以 让 自 定义 对 象 通过 加 号 “+”( 或 是 别 的 运算 符 ) 进行 运算 。 第 13 章 对 
此 有 详细 的 介绍 ， 现 在 只 是 借用 这 个 例子 来 展示 特殊 方法 的 使 用 。 


我 们 来 实现 一 个 二 维 向 量 (vector) 类 ， 这 里 的 向 量 就 是 欧 几 里 得 几何 中 常用 的 概念 ， 常 
在 数学 和 物理 中 使 用 的 那个 〈 见 图 1-1) 。 









































































































































































































Vector(4, 5) 


Vector(2, 4) 





Vector(2, 1) 






X 


1-1: 一 个 二 维 向 量 加 法 的 例子 ，Vector(2,4) + Vextor(2,1) = Vector (4,5) 




















~ Python 内 置 的 complex 类 可 以 用 来 表示 二 维 向 量 量 ， 但 我 们 这 个 自 定义 的 类 
以 扩展 到 维 向 量 ， 详 见 第 14 章 。 


为 了 给 这 个 类 设计 API， 我 们 先 写 个 模拟 的 控制 台 会 话 来 做 doctest。 下 面 这 一 段 代码 就 是 
图 1-1 所 示 的 向 量 加 法 : 





>>> v1 = Vector(2, 4) 
>>> v2 = Vector(2, 1) 
>>> v1 + v2 
Vector(4, 5) 


Palas + 运算 符 所 得 到 的 结果 也 是 一 个 向 量 ， 而 且 结果 能 被 控制 台 友 好 地 打印 出 











abs 是 一 个 内 置 函数 ， 如 果 输 入 是 整数 或 者 浮 点 数 ， 它 返回 的 是 输入 值 的 绝对 值 ， 如 果 输 
入 是 复数 Ccomplex number) ， 那 么 返回 这 个 复数 的 模 。 为 了 保持 一 致 性 ， 我 们 的 API 在 
ALE! abs 函数 的 时 候 ， 也 应 该 返回 该 向 量 的 模 : 











>>> v = Vector(3, 4) 
>>> abs(v) 


[5.2 | 
































我 们 还 可 以 利用 * 运算 符 来 实现 向 量 的 标量 乘法 ( 即 向 量 与 数 的 乘法 ， 得 到 的 结果 疝 量 
的 方向 与 原 向 量 一 致 5， 模 变 大 ): 


6 如 果 向 量 与 负数 相 乘 ， 得 到 的 结果 向 量 的 方向 与 原 向 量 相反 。 一 一 编者 注 

































































Vector(9, 12) 


>>> abs(v * 3) 
15.0 








示例 1-2 包含 了 一 个 Vector 类 的 实现 ， 上 面 提 到 的 操作 在 代码 里 是 用 这 些 特 殊 方 法 实现 
的 : _ repr 、 _abs 、 add 和 mul 。 


示例 1-2 一 个 简单 的 二 维 向 量 类 








from math import hypot 
class Vector: 
def _ init__(self, x=0, y=0): 


self.x = x 
self.y = y 


def _repr_ (self): 
return 'Vector(%r, %r)' % (self.x, self.y) 


def _abs_ (self): 
return hypot(self.x, self.y) 


def _ bool_ (self): 
return bool(abs(self)) 


def _add_ (self, other): 
x = self.x + other.x 
y = self.y + other.y 
return Vector(x, y) 


def _mul_ (self, scalar): 
return Vector(self.x * scalar, self.y * scalar) 














JE 








虽然 代码 里 有 6 个 特殊 方法 ， 但 这 些 方法 〈 除 了 __init_) 并 不 会 在 这 个 类 自身 的 代码 
中 使 用 。 即 便 其 他 程序 要 使 用 这 个 类 的 这 些 方法 ， 也 不 会 直接 调用 它们 ， 就 像 我 们 在 上 面 
的 控制 台 对 话 中 看 到 的 。 上 文 也 提 到 过 ， 一 般 只 有 Python 的 解释 器 会 频繁 地 直接 调用 这 

些 方法 。 接 下 来 看 看 每 个 特殊 方法 的 实现 。 


1.2.2 ”字符 串 表 示 形 式 


Python 有 一 个 内 置 的 函数 叫 repr， 它 能 把 一 个 对 象 用 字符 串 的 形式 表达 出 来 以 便 辨 认 ， 
这 就 是 “字符 串 表示 形式 ”"。repr 就 是 通过 repr 这 个 特殊 方法 来 得 到 一 个 对 象 的 字 


















































符 串 表示 形式 的 。 如 果 没 有 实现 __repr __， 当 我 们 在 控制 台 里 打印 一 个 向 量 的 实例 时 ， 
得 到 的 字符 串 可 能 会 是 <Vector object at 0x10e100070>. 


交互 式 控 制 台 和 调试 程序 (debugger) 用 repr 函数 来 获取 字符 串 表 示 形 式 ， 在 老 的 使 用 

% 符号 的 字符 串 格 式 中 ， 这 个 函数 返回 的 结果 用 来 代替 %r 所 代表 的 对 象 ， 同 

样 ，str.format 函数 所 用 到 的 新 式 字 符 串 格式 化 语法 
Chttps://docs.python.org/2/library/string.html#format-string-syntax) 也 是 利用 了 repr， 才 把 

Ir 字段 变 成 字符 串 。 








iN % 和 str. Format 这 两 种 格式 化 字符 串 的 手段 在 本 书 中 都 会 使 用 。 其 实 整个 
Python 社区 都 在 同时 使 用 这 两 种 方法 。 个 人 来 讲 ， 我 越 来 越 喜欢 str.format 了 ， 但 
是 Python 程序 员 更 喜欢 简单 的 %。 因 此 ， 这 两 种 形式 并 存 的 情况 还 会 持续 下 去 。 


在 __repr__ 的 实现 中 ， 我 们 用 到 了 %r 来 获取 对 象 各 个 属性 的 标准 字符 串 表 示 形 式 一 一 
这 是 个 好 习惯 ， 它 暗示 了 一 个 关键 : Vector(1，2) 和 Vector('1'，'2') 是 不 一 样 
的 ， 后 者 在 我 们 的 定义 中 会 报错 ， 因 为 向 量 对 象 的 构造 函数 只 接受 数值 ， 不 接受 字符 串 

































































| "实际 上 ，Vector 的 构造 函数 接受 字符 串 。 而 且 ， 对 于 使 用 字符 串 构 造 的 Vector， 这 6 个 特殊 方法 中 ， 只 有 __abs__ 
4 和 _ bool “会 报错 。 此 外 ，1.2.4 节 定 义 的 __bool “不 会 报错 。 编者 注 




















_repr__ 所 返回 的 字符 串 应 该 准确 、 无 歧义 ， 并 且 尽 可 能 表达 出 如 何 用 代码 创建 出 这 个 
外 打印 的 对 象 。 因此 这 里 使 用 了 类 似 调用 对 象 构造 器 的 表达 形式 〈 比 如 Vector(3，4) 
就 是 个 例子 ) 。 


_repr 和 str 的 区 别 在 于 ， 后 者 是 在 str() 函数 被 使 用 ， 或 是 在 用 print 函数 
打印 一 个 对 象 的 时 候 才 被 调用 的 ， 并 且 它 返回 的 字符 串 对 终端 用 户 更 友好 。 


如 果 你 只 想 实 现 这 两 个 特殊 方法 中 的 一 个 ，_repr_ ”是 更 好 的 选择 ， 因 为 如 果 一 个 对 象 
没有 __str__ 函数 ， 而 Python 又 需 要 调用 它 的 时 候 ， 解 释 嚣 会 用 __repr__ 作为 替代 。 


























~I “Difference between __str and _ repr in 

Python” (http://stackoverflow.com/questions/1436703/difference-between-str-and-repr-in- 
python) 是 Stack Overflow 上 的 一 个 问题 ，Python 程序 员 Alex Martelli 和 Martijn 
Pieters 的 回答 很 精彩 。 


12.3 ”算术 运算 和 从 


通过 _add_ 和 __mul _， 示例 1-2 为 向 量 类 带 来 了 + 和 * 这 两 个 算术 运算 符 。 值 得 注 
意 的 是 ， 这 两 个 方法 的 返回 值 都 是 新 创建 的 向 量 对 象 ， 被 操作 的 两 个 向 量 (self 或 
other) 还 是 原封 不 动 ， 代 码 里 只 是 读 取 了 它们 的 值 而 已 。 中 缀 运算 符 的 基本 原则 就 是 不 
改变 操作 对 象 ， 而 是 产 出 一 个 新 的 值 。 第 13 章 会 谈 到 更 多 这 方面 的 问题 。 



































Be 示例 1-2 只 实现 了 数字 做 乘 数 、 向 量 做 被 乘 数 的 运算 ， 乘 法 的 交换 律 则 被 名 
略 了 。 在 第 13 章 里 ， 我 们 将 利用 __rmul__ 解决 这 个 问题 。 


12.4 目 定 义 的 布尔 值 


尽管 Python 里 有 bool 类 型 ， 但 实际 上 任何 对 象 都 可 以 用 于 需要 布尔 值 的 上 下 文中 《比如 
if 或 while 语句 ， 或 者 and、or 和 not 运算 符 ) 。 为 了 判定 一 个 值 x 为 真 还 是 为 假 ， 
Python 会 调用 boo1(x)， 这 个 函数 只 能 返回 True 或 者 False。 


默认 情况 下 ， 我 们 自己 定义 的 类 的 实例 总 被 认为 是 真 的 ， 除 非 这 个 类 对 bool _ 或 者 
_ jlen_ _ 函数 有 自己 的 实现 。bool(x) 的 背后 是 调用 x. bool () 的 结果 ; 如 果 不 存 
在 __bool__ 方 法， 那么 bool(x) 会 尝试 调用 x._ len_()。 若 返回 0， 则 bool 会 返回 
False; 个 则 返回 True. 


我 们 对 __bool _ 的 实现 很 简单 ， 如 果 一 个 癌 量 的 模 是 0， 那么 就 返回 False， 其 他 情况 
则 返回 True。 因 为 ”bool 函数 的 返回 类 型 应 该 是 布尔 型 ， 所 以 我 们 通过 
bool(abs(self)) 把 模 值 变 成 了 布尔 值 。 

在 Python 标准 库 的 文档 中 ， 有 一 节 叫 作 “Built-in 


Types” Chttps://docs.python.org/3/library/stdtypes.html#truth) ， 其 中 规定 了 真 值 检验 的 标 
准 。 通 过 实现 __bool ， 你 定义 的 对 象 就 可 以 与 这 个 标准 保持 一 致 。 


\ 


如 果 想 让 Vector. bool 更 高 效 ， 可 以 采用 这 种 实现 : 



























































def bool (self): 
return bool(self.x or self.y) 





它 不 那么 易 读 ， 却 能 省 掉 从 abs 到 ”abs _ 到 平方 再 到 平方 根 这 些 中 间 步 又 。 通 过 
bool 把 返回 类 型 显 式 转换 为 布尔 值 是 为 了 符合 bool “对 返回 值 的 规定 ， 因 为 or 
运算 符 可 能 会 返回 x 或 者 y 本 身 的 值 : Ax 的 值 等 价 于 真 ， 则 or 返回 x 的 值 ; 否则 
返回 y 的 值 。 





1.3 ”特殊 方法 一 多 


Python 语言 参考 手册 中 的 “Data Model” Chttps://docs.python.org/3/reference/datamodel.html ) 
一 章 列 出 了 83 个 特殊 方法 的 名 字 ， 其 中 47 个 用 于 实现 算术 运算 、 位 运算 和 比较 操作 。 


表 1-1 和 表 1-2 列 出 了 这 些 方法 的 概况 。 

















` 这 些 表 并 没有 完全 按照 官方 文档 分 组 。 
表 1-1: 跟 运 算 符 无 关 的 特殊 方法 

















类 别 方法 名 


字符 串 / 字 节 序列 表示 形式 ` ` format 








数值 转换 ` ` complex__、 i 5 ` x index 





集合 模拟 、 getitem 、 setitem 、 delitem 、 contains__ 











TERRE ` reversed 











FY ial FRAY 





















































属性 管理 __getattr 、 


__getattribute_ 、 setattr_ 、 delattr_、 

















属性 描述 符 、 delete 























Ea 


民 类 相关 的 服务 __prepare__. __instancecheck__. __subclasscheck__ 

















表 1-2: 跟 运 算 符 相关 的 特殊 方法 








K y 方法 名 和 对 应 的 运算 符 










































































*= b) 。 第 13 章 会 对 这 两 者 作出 详细 解释 。 


一 元 运 
wit neg -x pos + abs abs() 

众多 比 

较 运 算 lt <、 le <=、 eq ==、 ne 1=、 gt >、 ge >= 

符 

算术 运 add +、 sub -x mul *, truediv /、 floordiv //、 mod %、 divmod 
算 符 divmod(). __pow__ ** 或 pow()、 __round__ round() 

反 向 算 

术 运 算 radd_、 rsub_、 rmul__y rtruediv__. __rfloordiv__. rmod_、 rdivmod_ 、 rpow 
符 

HE 

值 算 术 iadd_ _ 、 isub imul__. itruediv__. __ifloordiv__. imod__. ipow 

运算 符 

Wigs 

~ invert ~、 lshift <<、 rshift >>、 and &、 or ` xor A 

反 向 位 

j= rlshift__, rrshift__. rand__y rxor__y ror 

运算 符 

增 量 赋 

值 位 运 | _ ilshift 、_ irshift 、_iand 、_ ixor 、_ ior 

算 符 


A 当 交 换 两 个 操作 数 的 位 置 时 ， 就 会 调用 反 向 运算 符 (b * a 而 不 是 a * b) 。 
增 量 赋值 运算 符 则 是 一 种 把 中 缀 运算 符 变 成 赋值 运算 的 捷径 (a 


a * b 就 变 成 了 a 


14 为 什么 len 不 是 普通 方法 


我 在 2013 年 问 核心 开发 者 Raymond Hettinger 这 个 问题 时 ， 他 用 “Python 之 

禅 ”(https://www.python.org/doc/humor/#the-zen-of-python〉 里 的 原 话 回 答 了 我 :“ 实 用 胜 于 
ae, PFE 1.2 TERANE, WE x 是 一 个 内 置 类 型 的 实例 ， 那 么 len(x) 的 速度 会 非 
常 快 。 背 后 的 原因 是 CPython 会 直接 从 一 个 C 结构 体 里 读 取 对 象 的 长 度 ， 完 全 不 会 调用 任 
何方 法 。 获 取 一 个 集合 中 元 素 的 数量 是 一 个 很 常见 的 操作 ， 在 str、1ist、memoryview 
等 类 型 上 ， 这 个 操作 必须 高 效 。 


换 句 话说 ，len 之 所 以 不 是 一 个 普通 方法 ， 是 为 了 让 Python 自 带 的 数据 结构 可 以 走 后 

门 ，abs 也 是 同 理 。 但 是 多 亏 了 它 是 特殊 方法 ， 我 们 也 可 以 把 len 用 于 自 定 义 数据 类 

型 。 这 种 处 理 方 式 在 保持 内 置 类 型 的 效率 和 保证 语言 的 一 致 性 之 间 找 到 了 一 个 平衡 点 ， 也 
印证 了 “Python 之 禅 ?中 的 另外 一 名 话 :“ 不 能 让 特例 特殊 到 开始 破坏 既定 规则 。 


















































` 如 果 把 abs 和 len 都 看 作 一 元 运算 符 的 话 ， 你 也 许 更 能 接受 它们 一 一 虽然 看 
起 来 像 面向 对 象 语言 中 的 函数 ， 但 实际 上 又 不 是 函数 。 有 一 门 叫 作 ABC 的 语言 是 
Python 的 直系 祖先 ， 它 内 置 了 一 个 # 运 算 符 ， 当 你 写 出 #s 的 时 候 ， 它 的 作用 跟 len 
一 样 。 如 果 写 成 x#s 这 样 的 中 缓 运算 符 的 证 那么 它 的 作用 是 计算 s 中 x 出 现 的 次 
数 。 在 Python 里 对 应 的 写法 是 s.count(x) 。 注 意 这 里 的 s 是 一 个 序列 类 型 。 








15 本 章 小 结 


通过 实现 特殊 方法 ， 自 定义 数据 类 型 可 以 表现 得 跟 内 置 类 型 一 样 ， 从 而 让 我 们 写 出 更 具 表 
达 力 的 代码 一 一 或 者 说 ， 更 具 Python 风格 的 代码 。 


Python 对 象 的 一 个 基本 要 求 就 是 它 得 有 合理 的 字符 串 表 示 形 式 ， 我 们 可 以 通过 repr 
和 str _ 来 满足 这 个 要 求 。 前 者 方便 我 们 调试 和 记录 日 志 ， 后 者 则 是 给 终端 用 户 看 
的 。 这 就 是 数据 模型 中 存在 特殊 方法 repr 和 ”str _ 的 原因 。 


对 序列 数据 类 型 的 模拟 是 特殊 方法 用 得 最 多 的 地 方 ， 这 一 点 在 FrenchDeck 类 的 示例 中 有 
所 展现 。 在 第 2 章 中 ， 我 们 会 着 重 介绍 序列 数据 类 型 ， 然 后 在 第 10 章 中 ， 我 们 会 把 
Vector 类 扩展 成 一 个 多 维 的 数据 类 型 ， 通 过 这 个 练习 你 将 有 机 会 实现 自 定义 的 序列 。 


Python 通过 运算 符 重 载 这 一 模式 提供 了 丰富 的 数值 类 型 ， 除 了 内 置 的 那些 之 外 ， 还 有 
decimal.Decimal 和 fractions.Fraction。 这 些 数 据 类 型 都 支持 中 级 算术 运算 符 。 在 
第 13 章 中 ， 我 们 还 会 通过 对 Vector 类 的 扩展 来 学 习 如 何 实现 这 些 运算 符 ， 当 然 还 会 提 
到 如 何 让 运算 符 满 足 交 换 律 和 增强 赋值 。 


Python 数据 模型 的 特殊 方法 还 有 很 多 ， 本 书 会 涵盖 其 中 的 绝 大 部 分 ， 探 讨 如 何 使 用 和 实现 
它们 。 


























































































































1.6 延伸 阅读 


对 本 章 内 容 和 本 书 主题 来 说 ，Python 语言 参考 手册 里 的 “Data Model” 一 章 
(https://docs.python.org/3/reference/datamodel.html) 是 最 符合 规范 的 知识 来 源 。 


Alex Martelli 的 《Python 技术 手册 (第 2 版 ，》 对 数据 模型 的 讲解 很 精彩 。 我 写 这 本 书 的 
时 候 ，《Python 技术 手册 》 的 最 新 版 本 是 2006 年 出 版 的 ， 书 里 用 的 还 是 Python 2.5， 但 是 
Python 关于 数据 模型 的 概念 并 没有 太 大 的 变化 ， 而 书 中 Martelli 对 属性 访问 机 制 的 描述 ， 
应 该 是 除了 CPython 中 的 C 源码 之 外 在 这 方面 最 权威 的 解释 。Martelli 还 是 Stack Overflow 
上 的 高 产 贡 献 者 ， 在 他 名 下 差不多 有 5000 条 答案 ， 你 也 可 以 去 他 的 Stack Overflow 主页 
(http://stackoverflow.com/users/95810/alex-martelli) 上 看 看 。 


David Beazley 车 有 两 本 基于 Python 3 的 书 ， 其 中 对 数据 模型 进行 了 详尽 的 介绍 。 一 本 是 
(Python 参考 手册 〈 第 4 版 ) 》8， 另 一 本 是 与 BrianK. Jones 合 著 的 《Python 
Cookbook (3% 3 版 ) 中 文 版 》。 




















8 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-24259-4。 一 一 编者 注 
























































由 Gregor Kiczales, Jim des Rivieres 和 Daniel G. Bobrow 合 著 的 The Art of the Metaobject 
Protocol (X#k AMOP, MIT HARE, 1991 年 ) 一 书 解 释 了 元 对 象 协议 (metaobject 
protocol, MOP) 的 概念 ， 而 Python 数据 模型 便 是 对 这 一 概念 的 一 种 阐释 。 








杂谈 
数据 模型 还 是 对 象 模型 


Python 文档 里 总 是 用 “Python 数据 模型 ”这 种 说 法 ， 而 大 多 数 作 者 提 到 这 个 概念 的 时 候 
会 说 “Python 对 象 模 型 ”。Alex Martelli 的 《Python 技术 手册 【〈 第 2 版 ) 》 和 David 
Beazley 的 《Python 参考 手册 【第 4 版 ) 》 是 这 个 领域 中 最 好 的 两 本 书 ， 但 是 他 们 也 
总 说 “Python 对 象 模型 ”。 维 基 百 科 中 对 象 模型 的 第 一 个 定义 
(http://en.wikipedia.org/wiki/Object_model) 是 : 计算 机 编程 语言 中 对 象 的 属性 。 这 
正好 是 “Python 数据 模型 ?所 要 描述 的 概念 。 我 在 本 书 中 一 直 都 会 用 “数据 模型 ”这 个 
词 ， 首 先是 因为 在 Python 文档 里 对 这 个 词 有 偏爱 ， 另 外 一 个 原因 是 Python 语言 参考 
手册 中 与 这 里 讨论 的 内 容 最 相关 的 一 章 的 标题 就 是 “数据 模 
AY” Chttps://docs.python.org/3/reference/datamodel.html) 。 


魔术 方法 


在 Ruby 中 也 有 类 似 “ 特 殊 方法 ”的 概念 ， 但 是 Ruby 社区 称 之 为 “魔术 方法 ”， 而 实际 
上 Python 社区 里 也 有 不 少 人 用 的 是 后 者 。 而 我 恰恰 认为 “特殊 方法 "是 “魔术 方法 ”的 对 
Lie Python 和 Ruby 都 利用 了 这 个 概念 来 提供 丰富 的 元 对 象 协议 ， 这 不 是 魔术 ， 而 
是 让 语言 的 用 户 和 核心 开发 者 拥有 并 使 用 同样 的 工具 。 


考虑 一 下 JavaScript， 情 况 就 正好 反 过 来 了 。JavaScript 中 的 对 象 有 不 透明 的 魔术 般 的 
特性 ， 而 你 无 法 在 自 定 义 的 对 象 中 模拟 这 些 行为 。 比 如 在 JavaScript 1.8.5 中 ， 用 户 的 



















































































定义 对 象 不 能 有 只 读 属性 ， 然 而 不 少 JavaScript 的 内 置 对 象 却 可 以 有 。 因 此 在 
JavaScript 中 ， 只 读 属 性 是 “魔术 ” 般 的 存在 ， 对 于 普通 的 JavaScript 用 户 而 言 ， 它 就 
像 超 能 力 一 样 。2009 年 推出 的 ECMAScript 5.1 才 让 用 户 可 以 定义 只 读 属 ' 
JavaScript 中 跟 元 对 象 协议 有 关 的 部 分 一 直 在 进化 ， 但 由 于 历史 原因 ， 这 方 面 已 还 
赶不上 Python 和 Ruby. 


元 对 象 


The Art of the Metaobject Protocal (AMOP) 是 我 最 喜欢 的 计算 机 图 书 的 标题 。 客 观 
来 说 ， 元 对 象 协议 这 个 词 对 我 们 学 习 Python 数据 模型 是 有 帮助 的 。 元 对 象 所 指 的 是 
那些 对 建构 语言 本 身 来 讲 很 重要 的 对 象 ， 以 此 为 前 提 ， 协 议 也 可 以 看 作 接口 。 也 就 
是 说 ， 元 对 象 协 议 是 对 象 模型 的 同义词 ， 它 们 的 意思 都 是 构建 核心 语言 的 API。 


一 套 丰富 的 元 对 象 协议 能 让 我 们 对 语言 进行 扩展 ， 让 它 文 持 新 的 编程 范式 。4MOP 的 
第 一 作者 Gregor Kiczales 后 来 成 为 面向 方面 编程 的 先驱 ， 他 写 出 了 一 个 Java 扩展 叫 
AspectJ， 用 来 实现 他 对 面向 方面 编程 的 理念 。 其 实在 Python 这 样 的 动态 语 言 里 ， 更 
容易 实现 面向 方面 编程 。 现 在 已 经 有 几 个 Python 框架 在 做 这 件 事 情 了 ， 其 中 最 重要 
的 是 zope.interface (http://docs.zope.org/zope.interface/) 。 第 11 章 的 延伸 阅读 里 
会 谈 到 它 。 
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第 二 部 分 “数据 结构 


第 2 章 序列 构成 的 数组 


你 可 能 注意 到 了 ， 之 前 提 到 的 几 个 操作 可 以 无 莽 别 地 应 用 于 文本 、 列表 和 表格 上 。 我 
们 把 文本 、 列 表 和 表格 叫 作 数据 火车 .……..FOR 命令 通常 能 作用 于 数据 火车 上 。] 


Geurts、Meertens 和 Pemberton 
ABC Programmer's Handbook 








Teo Geurts, Lambert Meertens, and Steven Pemberton, ABC Programmer's Handbook, p. 8. 


在 创造 Python 以 前 ，Guido 曾 为 ABC 语言 页 献 过 代码 。ABC 语言 是 一 个 致力 于 为 初学 者 
设计 编程 环境 的 长 达 10 年 的 研究 项 目 ， 其 中 很 多 点 子 在 现在 看 来 都 很 有 Python 风格 : 序 
列 的 泛 型 操作 、 内 置 的 元 组 和 映射 类 型 、 用 缩 进 来 架构 的 源码 、 无 需 变量 声明 的 强 类 型 ， 
等 等 。Python 对 开发 者 如 此 友好 ， 根 源 就 在 这 里 。 


Python 也 从 ABC 那里 继承 了 用 统一 的 风格 去 处 理 序 列 数据 这 一 特点 。 不 管 是 哪 种 数据 结 
构 ， 字 符 串 、 列 表 、 字 节 序 列 、 数 组 、XML 元 素 ， 抑 或 是 数据 库 查 询 结果 ， 它 们 都 共用 
一 套 丰 富 的 操作 : 迭代 、 切 片 、 排 序 ， 还 有 拼接 。 


深入 理解 Python 中 的 不 同 序 列 类 型 ， 不 但 能 让 我 们 避免 重新 发 明 轮 子 ， 它 们 的 API 还 能 
eee 己 定义 的 API 设计 得 跟 原 生 的 序列 一 样 ， 或 者 是 跟 未 来 可 能 出 现 的 序 列 类 
型 保持 兼容 


本 章 讨论 的 内 容 几乎 可 以 应 用 到 所 有 的 序列 类 型 上 ， 从 我 们 熟悉 的 1ist， 到 Python 3 中 
特有 的 str 和 bytes。 我 还 会 特别 提 到 跟 列 表 、 元 组 、 数组 以 及 队列 有 关 的 话题 题 。 但 是 
Unicode 字符 串 和 字 节 序列 这 方面 的 内 容 被 放 在 了 第 4 章 。 另外 这 里 讨论 的 数据 结构 都 是 
Python 中 现成 可 用 的 ， 如 果 你 想 知 道 怎样 创建 自己 的 序列 类 型 ， 那 得 等 到 第 10 章 。 








































































































2.1 内置 序列 类 型 概览 
Python 标准 库 用 C 实现 了 丰富 的 序列 类 型 ， 列 举 如 下 。 
容器 序列 
list. tuple 和 collections .deque 这 些 序列 能 存放 不 同类 型 的 数据 。 
扁平 序列 











str、bytes、bytearray、memoryview 和 array.array， 这 类 序列 只 能 容纳 一 种 
类 型 
JN o 


容器 序列 存放 的 是 它们 所 包含 的 任意 类 型 的 对 象 的 引用 ， 而 扁平 序列 里 存放 的 是 值 而 不 
是 引用 。 换 句 话 说， 局 平 序列 其 实 是 一 段 连续 的 内 存 空间 。 由 此 可 见 局 平 序列 其 实 更 加 紧 
姿 ， 但 是 它 里 面 只 能 存放 诸如 字符 、 字 节 和 数值 这 种 基础 类 型 。 
序列 类 型 还 能 按照 能 否 被 修改 来 分 类 。 


可 变 序列 





























list. bytearray、array.array、collections.deque 和 memoryview。 
不 可 变 序列 


tuple. str 和 bytes. 





图 2-1 显示 了 可 变 序 列 (MutableSequence) 和 不 可 变 序列 (Sequence) 的 差异 ， 同 时 
也 能 看 出 前 者 从 后 者 那里 继承 了 一 些 方法 。 虽 然 内 置 的 序列 类 型 并 不 是 直接 从 Sequence 
All MutableSequence 这 两 个 抽象 基 类 (Abstract Base Class, ABC) 继承 而 来 的 ， 但 是 了 
解 这 些 基 类 可 以 帮助 我 们 总 结 出 那些 完整 的 序列 类 型 包含 了 哪些 功能 。 


MutableSequence 
setitem ~ 
__ delitem 


insert 



































__getitem__ 


lterable —contains— append 


ei 一 "er 一 


__reversed__ 
index 


O 
count pes 
remove 


_iadd | 
图 2-1: 这 个 UML 类 图 列举 了 collections.abc 中 的 几 个 类 〔〈 超 类 在 左边 ， 箭 头 从 


reverse 
extend 














子 类 指向 超 类 ， 和 斜体 名 称 代 表 抽 象 类 和 抽象 方法 ) 


通过 记 住 这 些 类 的 共有 特性 ， 把 可 变 与 不 可 变 序 列 或 是 容器 与 局 平 序列 的 概念 融会 贯通 ， 
在 探索 并 学 习 新 的 序列 类 型 时 ， 你 会 更 加 得 心 应 手 。 


最 重要 也 最 基础 的 序列 类 型 应 该 就 是 列表 (list) 了 。1ist 是 一 个 可 变 序列 ， 并 且 能 局 
oo 型 的 元 素 。 作 为 这 本 书 的 读者 ， 我 想 你 应 该 对 它 很 了 解 了 ， 因 此 让 我 们 直接 

始 讨 论 列表 推导 (list comprehension) 吧 。 列 表 推 导 是 一 种 构建 列表 的 方法 ， 它 异常 强 
ii RT AAR AE HERE, EER REA AIRERA WAR 
打开 生成 器 表达 式 (generator expression) 的 大 门 ， 后 者 具有 生成 各 种 类 型 的 元 素 并 用 它 
们 来 填充 序列 的 功能 。 下 一 节 就 来 看 看 这 两 个 概念 。 

































































2.2 ”列表 推导 和 生成 器 表达 式 

列表 推导 是 构建 列表 (1ist) 的 快捷 方式 ， 而 生成 器 表达 式 则 可 以 用 来 创建 其 他 任何 类 
型 的 序列 。 如 果 你 的 代码 里 并 不 经 常 使 用 它们 ， 那 么 很 可 能 你 错过 了 许多 写 出 可 读 性 更 好 
且 更 高 效 的 代码 的 机 会 。 


如 果 你 对 我 说 的 “更 具 可 读 性 ” 持 怀 疑 态度 的 话 ， 别 急 着 下 结论 ， 我 马上 就 能 说 服 你 。 




















~I 很 多 Python 程序 员 都 把 列表 推导 〈1list comprehension) 简称 为 listcomps， 生 成 
式 表达 器 (generator expression) 则 称 为 genexps。 我 有 时 也 会 这 么 用 。 


2.2.1 列表 推导 和 可 读 性 
先 来 个 小 测试 ， 你 觉得 示例 2-1 和 示例 2-2 中 的 代码 ， 哪 个 更 容易 读 懂 ? 
示例 2-1 把 一 个 字符 串 变 成 Unicode 码 位 的 列表 














>>> symbols = “$4EYEK 

>>> codes = [] 

>>> for symbol in symbols: 
codes.append(ord(symbol1) ) 

>>> codes 

[36, 162, 163, 165, 8364, 164] 














示例 2-2 ”把 字符 串 变 成 Unicode 码 位 的 另外 一 种 写法 


>>> symbols = “$4EYEK 
>>> codes = [ord(symbol) for symbol in symbols] 


>>> codes 
[36, 162, 163, 165, 8364, 164] 








虽说 任何 学 过 一 点 Python 的 人 应 该 都 能 看 懂 示 例 2-1， 但 是 我 觉得 如 果 学 会 了 列表 推导 的 
话 ， 示 例 2-2 读 起 来 更 方便 ， 因 为 这 段 代 码 的 功能 从 字面 上 就 能 轻松 地 看 出 来 。 


for 循环 可 以 胜任 很 多 任务 : 遍历 一 个 序列 以 求 得 总 数 或 挑 出 茶 个 特定 的 元 素 、 用 来 计算 
oe 还 有 其 他 任何 你 想 做 的 事情 。 在 示例 2-1 的 代码 里 ， 它 被 用 来 新 建 一 个 
列表 。 


男 一 方面 ， 列 表 推 导 也 可 能 被 滥用 。 以 前 看 到 过 有 的 Python 代码 用 列表 推导 来 重复 获取 
一 个 函数 的 副作用 。 通 常 的 原则 是 ， 只 用 列表 推导 来 创建 新 的 列表 ， 并 且 尺 量 保持 简短 。 
如 果 列 表 推 导 的 代码 超过 了 两 行 ， 你 可 能 就 要 考虑 是 不 是 得 用 for HAEST. MIRS 
文章 一 样 ， 并 没有 什么 硬性 的 规则 ， 这 个 度 得 你 自己 把 握 。 












































~ 句法 提示 


Python 会 忽略 代码 里 []、{} 和 () 中 的 换行 ， 因 此 如 果 你 的 代码 里 有 多 行 的 列表 、 
列表 推导 、 生 成 器 表达 式 、 字 典 这 一 类 的 ， 可 以 省 略 不 太 好 看 的 续 行 符 \。 











列表 推导 不 会 再 有 变量 泄漏 的 问题 


Python 2.x 中 ， 在 列表 推导 中 for 关键 词 之 后 的 赋值 操作 可 能 会 影响 列表 推导 上 下 文 
中 的 同名 变量 。 像 下 面 这 个 Python 2.7 控制 台 对 话 : 























Python 2.7.6 (default, Mar 22 2014, 22:59:38) 
[GCC 4.8.2] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 


>>> x = ‘my precious’ 

>>> dummy = [x for x in "ABC'] 
>>> X 

Cc 











如 你 所 见 ，x 原本 的 值 被 取代 了 ， 但 是 这 种 情况 在 Python 3 中 是 不 会 出 现 的 。 


列表 推导 、 生 成 器 表达 式 ， 以 及 同 它们 很 相似 的 集合 (set) 推导 和 字典 Cdict) HE 
导 ， 在 Python 3 中 都 有 了 自己 的 局 部 作用 域 ， 就 像 函 数 似 的 。 表 达 式 内 部 的 变量 和 赋 
值 只 在 局 部 起 作用 ， 表 达 式 的 上 下 文 里 的 同名 变量 还 可 以 被 正常 引用 ， 局 部 变量 并 不 


会 影响 到 它们 。 


这 是 Python 3 代码 : 

















>>> x = 'ABC' 
>>> dummy = [ord(x) for x in x] 


>>> dummy @ 
[65, 66, 67] 
>>> 








O x 的 值 被 保留 了 。 
O 列表 推导 也 创建 了 正确 的 列表 。 
列表 推导 可 以 帮助 我 们 把 一 个 序列 或 是 其 他 可 迭代 类 型 中 的 元 素 过 滤 或 是 加 工 ， 然 后 再 新 


建 一 个 列表 。Python ABA filter 和 map 函数 组 合 起 来 也 能 达到 这 一 效果 ， 但 是 可 读 性 
上 打 了 不 小 的 折扣 。 


2.2.2 ”列表 推导 同 filter 和 map 的 比较 






































filter 和 map 合 起 来 能 做 的 事情 ， 列 表 推 导 也 可 以 做 ， 而 且 还 不 需要 借助 难以 理解 和 阅 
读 的 Lambda 表达 式 。 详 见 示例 2-3。 


示例 2-3 用 列表 推导 和 map/filter 组 合 来 创建 同样 的 表单 


























>>> symbols = “$4EEK 

>>> beyond_ascii = [ord(s) for s in symbols if ord(s) > 127] 

>>> beyond_ascii 

[162, 163, 165, 8364, 164] 

>>> beyond_ascii = list(filter(lambda c: c > 127, map(ord, symbols))) 
>>> beyond_ascii 

[162, 163, 165, 8364, 164] 

















我 原 以 为 map/filter 组 合 起 来 用 要 比 列表 推导 快 一 些 ，Alex Martelli 却说 不 一 定 一 一 至 
少 在 上 面 这 个 例子 中 不 一 定 。 在 本 书 的 代码 仓库 Chttps://github.conyfluentpython/example- 
code) 中 有 名 为 02-array-seq/listcomp_speed.py Chttps://github.com/fluentpython/example- 
code/blob/master/02-array-seq/listcomp_speed.py) 的 脚本 ， 代 码 中 有 这 两 个 方法 的 效率 的 比 
较 。 


第 5 章 会 更 详细 地 讨论 map 和 filter。 下 面 就 来 看 看 如 何 用 列表 推导 来 计算 笛 卡 儿 积 : 
两 个 或 以 上 的 列表 中 的 元 素 对 构成 元 组 ， 这 些 元 组 构成 的 列表 就 是 笛 卡 儿 积 。 


2.2.3 ”向 卡 儿 积 


如 前 所 述 ， 用 列表 推导 可 以 生成 两 个 或 以 上 的 可 迭代 类 型 的 篆 卡 儿 积 。 笛 卡 儿 积 是 一 个 列 
表 ， 列 表 里 的 元 素 是 由 输入 的 可 返 代 类 型 的 元 素 对 构成 的 元 组 ， 因 此 第 卡 儿 积 列 表 的 长 度 
等 于 输入 变量 的 长 度 的 乘积 ， 如 图 2-2 所 示 。 
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图 2-2: 含有 4 种 花色 和 3 种 牌 面 的 列表 的 笛 卡 儿 积 ， 结 果 是 一 个 包含 12 个 元 素 的 列 














表 


如 果 你 需要 一 个 列表 ， 列 表 里 是 3 种 不 同 尺 寸 的 TT 恤衫 ， 每 个 尺寸 都 有 2 个 颜色 ， 示 例 
2-4 用 列表 推导 算出 了 这 个 列表 ， 列 表 里 有 6 种 组 合 。 


示例 2-4 使 用 列表 推导 计算 笛 卡 儿 积 























>>> colors = ['black', 'white'] 
>>> sizes = ['S', 'M', 'L'] 
>>> tshirts = [(color, size) for color in colors for size in sizes] @ 
>>> tshirts 
[('black', 'S'), (‘black', 'M'), (‘black', 'L'), ('white', 'S'), 
(‘white', 'M'), ('white', 'L')] 
>>> for color in colors: @ 
for size in sizes: 
print((color, size)) 


('black', 


'S') 
(‘black', 'M') 
(‘black', 'L') 
(‘white', 'S') 
(‘white', 'M') 
('white', 'L') 
>>> tshirts = [(color, size) for size in sizes © 


te for color in colors] 

>>> tshirts 
[('black', 'S' 
(‘black', 'L' 


white’, 'S'), (‘black', 'M'), (‘white', 'M'), 
white’, 'L')] 








wwe 


»C 
a 








O 这 里 得 到 的 结果 是 先 以 颜色 排列 ， 再 以 尺码 排列 。 
名 注 意 ， 这 里 两 个 循环 的 嵌 套 关系 和 上 面 列表 推导 中 for 从 句 的 先后 顺序 一 样 。 


© 如 果 想 依照 先 斥 码 后 颜色 的 顺序 来 排列 ， 只 需要 调整 从 名 的 顺序 。 我 在 这 里 插入 了 一 
个 换行 符 ， 这 样 顺序 安排 就 更 明显 了 。 


在 第 1 章 的 示例 1-1 中 ， 有 下 面 这 样 一 段 程 序 ， 它 的 作用 是 生成 一 个 按 花 色 分 组 的 52 张 
牌 的 列表 ， 其 中 每 个 花色 各 有 13 张 不 同 点 数 的 牌 。 












































self._cards = [Card(rank, suit) for suit in self.suits 


for rank in self.ranks] 





列表 推导 的 作用 只 有 一 个 : 生成 列表 。 如 果 想 生成 其 他 类 型 的 序列 ， 生 成 器 表达 式 就 派 上 
了 用 场 。 下 一 贡 就 是 对 生成 器 表达 式 的 一 个 简单 介绍 ， 其 中 可 以 看 到 如 何 用 它 生成 列表 以 
外 的 序列 类 型 。 


2.2.4 生成 器 表达 式 


虽然 也 可 以 用 列表 推导 来 初始 化 元 组 、 数 组 或 其 他 序列 类 型 ， 但 是 生成 器 表达 式 是 更 好 的 
选择 。 这 是 因为 生成 器 表达 式 背 后 遵守 了 壕 代 器 协议 ， 可 以 逐个 地 产 出 元 素 ， 而 不 是 先 建 























fe ie hee ee aren eed 
省 内 存 。 


生成 器 表达 式 的 语法 跟 列表 推导 差不多 ， 只 不 过 把 方 括号 换 成 圆 括 号 而 已。 
示例 2-5 展示 了 如 何 用 生成 器 表达 式 建立 元 组 和 数组 。 
示例 2-$ 用 生成 器 表达 式 初始 化 元 组 和 数组 














>>> symbols = “$4EYEK 
>>> tuple(ord(symbol) for symbol in symbols) @ 
(36, 162, 163, 165, 8364, 164) 


>>> import array 
>>> array.array('I', (ord(symbol) for symbol in symbols)) @ 
array('I', [36, 162, 163, 165, 8364, 164]) 








Ce ere. Tene 过 程 中 的 唯一 参数 ， 那 么 不 需要 额外 再 用 括号 把 它 


O array 的 构造 方法 需要 两 个 参数 ， 因 此 括号 是 必需 的 。array 构造 方法 的 第 一 个 参数 
指定 了 数组 中 数字 的 存储 方式 。2.9.1 节 中 有 更 多 关于 数组 的 详细 讨论 。 


示例 2-6 则 是 利用 生成 器 表达 式 实现 了 一 个 任 卡 儿 积 ， 用 以 打印 出 上 文中 我 们 提 到 过 的 工 
恤衫 的 2 种 颜色 和 3 种 尺码 的 所 有 组 合 。 与 示例 2-4 不 同 的 是 ， 用 到 生成 器 表达 式 之 后 ， 
内 存 里 不 会 留 下 一 个 有 6 个 组 合 的 列表 ， 因 为 生成 器 表达 式 会 在 每 次 For 循环 运行 时 才 
生成 一 个 组 合 。 如 果 要 计算 两 个 各 有 1000 个 元 素 的 列表 的 笛 卡 儿 积 ， 生 成 器 表达 式 就 可 
以 帮忙 省 掉 运 行 for 循环 的 开销 ， 即 一 个 含有 100 万 个 元 素 的 列表 。 


示例 2-6 使 用 生成 器 表达 式 计算 笛 卡 儿 积 
























































>>> colors = ['black', 'white'] 

>>> sizes = ['S', 'M', 'L'] 

>>> for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes): @ 
print (tshirt) 

black S 

black M 

black L 

white S 

white M 

white L 


@ 生成 器 表达 式 逐 个 产 出 元 素 ， 从 来 不 会 一 次 性 产 出 一 个 含有 6 个 工作 样式 的 列表 。 


第 14 章 会 专门 讲 到 生成 器 的 工作 原理 。 这 里 只 是 简单 看 看 如 何 用 生成 器 来 初始 化 除 列 表 
之 外 的 序列 ， 以 及 如 何 用 它 来 避免 额外 的 内 存 占用 。 


接 下 来 看 看 Python 中 的 另外 一 个 很 重要 的 序列 类 型 : 元 组 (tuple) 。 


















































2.3 ”元 组 不 仅仅 是 不 可 变 的 列表 
有 些 Python 入 门 教程 把 元 组 称 为 “不 可 变 列表 "， 然 而 这 并 没有 完全 概括 元 组 的 特点 。 除 


了 用 作 不 可 变 的 列表 ， 它 还 可 以 用 于 没有 字段 名 的 记录 。 鉴 于 后 者 常常 被 忽略 ， 我 们 先 来 
看 看 元 组 作为 记录 的 功用 。 


2.3.1 元 组 和 记录 


元 组 其 实 是 对 数据 的 记录 : 元 组 中 的 每 个 元 素 都 存放 了 记录 中 一 个 字段 的 数据 ， 外 加 这 个 
字段 的 位 置 。 正 是 这 个 位 置信 息 给 数据 赋予 了 意义 。 



















































































如 果 只 把 元 组 理解 为 不 可 变 的 列表 ， 那 其 他 信息 EN ne 它们 的 位 置 
似乎 就 变 得 可 有 可 无 。 但 是 如 果 把 元 组 当 作 一 些 字段 的 集合 ， 那 么 数量 和 位 置信 息 就 








变 得 非常 a 重要 了 于 


示例 2-7 中 的 元 组 就 被 当 作 记录 加 以 利用 。 如 果 在 任何 的 表达 式 里 我 们 在 元 组 内 对 元 素 排 
序 ， 这 些 元 素 所 携带 的 信息 就 会 丢失 ， 因 为 这 些 信息 是 跟 它 们 的 位 置 有 关 的 。 


示例 2-7 把 元 组 用 作 记 录 























>>> lax_coordinates = (33.9425, -118.408056) @ 
>>> city, year, pop, chg, area = ('Tokyo', 2003, 32450, @.66, 8014) @ 
>>> traveler_ids = [('USA', '31195855'), ('BRA', ‘CE342567'), © 
('ESP', 'XDA205856')] 
>>> for passport in sorted(traveler_ids): @ 
print('%s/%s' % passport) © 


BRA/CE342567 

ESP/XDA205856 

USA/31195855 

>>> for country, _ in traveler_ids: QO 
print (country) 











加 洛杉矶 国际 机 场 的 经 纬度 。 


O 东京 市 的 一 些 信息 : 市 名 、 年 份 、 人 口 〈 单 位 : HA), AOZ EM: 百分比 ) 
和 面积 〈 单 位 : 平方 干 米 ) 。 


O 一 个 元 组 列表 ， 元 组 的 形式 为 (country_code，passport_number ) 。 
O 在 迭代 的 过 程 中 ，passport 变量 被 绑 定 到 每 个 元 组 上 。 
O % 格式 运 算 符 能 被 匹配 到 对 应 的 元 组 元 素 上 。 


























QO for 循环 可 以 分 别提 取 元 组 里 的 元 素 ， 也 叫 作 拆 包 Cunpacking) 。 因 为 元 组 中 第 二 个 
元 素 对 我 们 没有 什么 用 ， 所 以 它 赋值 给 “” 占 位 符 。 


拆 包 让 元 组 可 以 完美 地 被 当 作 记录 来 使 用 ， 这 也 是 下 一 节 的 话题 。 


2.3.2 TJE 


示例 2-7 中 ， 我 们 把 元 组 ('Tokyo', 2003, 32450, 0.66, 8014) 里 的 元 素 分 别 赋值 
给 变量 city, year, pop, chg 和 area， 而 这 所 有 的 赋值 我 们 只 用 一 行 声明 就 写 完了 。 
同样 ， 在 后 面 一 行 中 ， 一 个 % 运 算 符 就 把 passport 元 组 里 的 元 素 对 应 到 了 print 函数 
的 格式 字符 串 空 档 中 。 这 两 个 都 是 对 元 组 拆 包 的 应 用 。 








本 元 组 拆 包 可 以 应 用 到 任何 可 迭代 对 象 上 ， 唯 一 的 硬性 要 求 是 ， 被 可 和 迭代 对 象 中 
的 元 素数 量 必须 要 跟 接受 这 些 元 素 的 元 组 的 空 档 数 一 致 。 除 非 我 们 用 * 来 表示 忽略 
多 余 的 元 素 ， 在 “用 * 来 处 理 多 余 的 元 素 ” 一 节 里 ， 我 会 讲 到 它 的 具体 用 法 。Python 爱 
好 者 们 很 喜欢 用 元 组 拆 包 这 个 说 法 ， 但 是 可 和 迭代 元 素 拆 包 这 个 表达 也 慢 慢 流行 了 起 
来 ， 比 如 “PEP 3132—Extended Iterable 

Unpacking” Chttps://www.python.org/dev/peps/pep-3132/) 的 标题 就 是 这 么 用 的 。 


最 好 辨认 的 元 组 拆 包 形式 就 是 平行 赋值 ， 也 就 是 说 把 一 个 可 迭代 对 象 里 的 元 素 ， 一 并 赋 
值 到 由 对 应 的 变量 组 成 的 元 组 中 。 就 像 下 面 这 段 代码 : 
























































>>> lax_coordinates = (33.9425, -118.408056) 
>>> latitude, longitude = lax_coordinates # 元 组 拆 包 
>>> latitude 


33.9425 
>>> longitude 
-118 . 408056 














另外 一 个 很 优雅 的 写法 当 属 不 使 用 中 间 变 量 交换 两 个 变量 的 值 : 


>>> b, a=a, b 


还 可 以 用 * 运算 符 把 一 个 可 迭代 对 象 拆 开 作为 函数 的 参数 : 





>>> divmod(20, 8) 

(2, 4) 

>>> t = (20, 8) 

>>> divmod(*t) 

(2, 4) 

>>> quotient, remainder = divmod(*t) 
>>> quotient, remainder 

(2, 4) 


下 面 是 另 一 个 例子 ， 这 里 元 组 拆 包 的 用 法 则 是 让 一 个 函数 可 以 用 元 组 的 形式 返回 多 个 值 ， 
然后 调用 函数 的 代码 就 能 轻松 地 接受 这 些 返回 值 。 比 如 os.path.split() 函数 就 会 返回 
以 路 径 和 最 后 一 个 文件 名 组 成 的 元 组 (path, last_part): 











>>> import os 
>>> _, filename = os.path.split('/home/luciano/.ssh/idrsa.pub' ) 


>>> filename 
“idrsa.pub' 














在 进行 拆 包 的 时 候 ， 我 们 不 总 是 对 元 组 里 所 有 的 数据 都 感 兴趣 ，_ 占 位 符 能 帮助 处 理 这 种 
情况 ， 上 面 这 段 代码 也 展示 了 它 的 用 法 。 
































Pes 如 果 做 的 是 国际 化 软件 ， 那 么 _ 可 能 就 不 是 一 个 理想 的 占 位 符 ， 因 为 它 也 是 
gettext.gettext 函数 的 常用 别名 ，gettext 模块 的 文档 
Chttps:/docs.python.org/3/library/gettexthtml ) 里 提 到 了 这 一 点 。 在 其 他 情况 下 ，_ 会 
是 一 个 很 好 的 占 位 符 。 

除 此 之 外 ， 在 元 组 拆 包 中 使 用 * 也 可 以 帮助 我 们 把 注意 力 集中 在 元 组 的 部 分 元 素 上 。 

用 *# 来 处 理 剩 下 的 元 素 

在 Python F, KAH *args 来 获取 不 确定 数量 的 参数 算是 一 种 经 典 写法 了 。 


于 是 Python 3 里 ， 这 个 概念 被 扩展 到 了 平行 赋值 中 : 



























































>>> a, b, *rest = range(5) 
>>> a, b, rest 

(0, 1, [2, 3, 4]) 

>>> a, b, *rest = range(3) 
>>> a, b, rest 

(®, 1, [2]) 

>>> a, b, *rest = range(2) 
>>> a, b, rest 


(©, 1, []) 


` 








FEYIN, MAEHE AERAN, EAEE UL LAER EL AE 





>>> a, *body, c, d = range(5) 
>>> a, body, c, d 
(0, [1, 2], 3, 4) 
>>> *head, b, c, d = range(5) 
>>> head, b, c, d 
([e, 1], 2, 3, 4) 

















Fy Ib TCA ILA NEKED E ARE AT AMERRE E o 


2.3.3 mE TARE 


接受 表达 式 的 元 组 可 以 是 嵌 套 式 的 ， 例 如 (a, b, (c, d)). WHE est cA KES 
Ht, Python 就 可 以 作出 正确 的 对 应 。 示 例 2-8 whe ot tk TCA 
Pe EL A DA 























示例 2-8 FRB TCARKRMAE 


metro_areas = [ 
(‘Tokyo', 'JP', 36.933, (35.689722,139.691667)), #@ 
("Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
('Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
('New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
('Sao Paulo’, 'BR', 19.649, (-23.547778, -46.635833)), 

] 


print('{:15} | {:49} | {:%9}'.format('', 'lat.', 'long.')) 
fmt = '{:15} | {:9.4F} | {:9.4F}' 
for name, cc, pop, (latitude, longitude) in metro_areas: # @ 
if longitude <= 0: # © 
print(fmt.format(name, latitude, longitude) ) 











@ 每 个 元 组 内 有 4 个 元 素 ， 其 中 最 后 一 个 元 素 是 一 对 坐标 。 

全 我 们 把 输入 元 组 的 最 后 一 个 元 素 拆 包 到 由 变量 构成 的 元 组 里 ， 这 样 就 获取 了 坐标 。 
© if longitude <= 0: 这 个 条 件 判 断 把 输出 限制 在 西半球 的 城市 。 

示例 2-8 的 输出 是 这 样 的 : 


























lat. 


| long. 
Mexico City | 19.4333 

| 

| 


| 

| -99.1333 
40.8086 | -74.0204 
-23.5478 | -46.6358 


New York-Newark 


Sao Paul 








Pay 在 Python 3 之 前 ， 元 组 可 以 作为 形 参 放 在 函数 声明 中 ， 例 如 def fn(a, (b, 
c)，d):。 然 而 Python 3 不 再 支持 这 种 格式 ， 具 体 原 因 见 于 “PEP 3113—Removal of 
Tuple Parameter Unpacking” (http://python.org/dev/peps/pep-3113/) 。 需 要 弄 清楚 的 

是 ， 这 个 改变 对 函数 调用 者 并 没有 影响 ， 它 改变 的 是 某 些 函数 的 声明 方式 。 


元 组 已 经 设计 得 很 好 用 了 ， 但 作为 记录 来 用 的 话 ， 还 是 少 了 一 个 功能 : 我 们 时 常会 需要 给 
记录 中 的 字段 命名 。namedtuple 函数 的 出 现 帮 我 们 解决 了 这 个 问题 。 


2.3.4 ”具名 元 组 


collections.namedtuple 是 一 个 工厂 函数 ， 它 可 以 用 来 构建 一 个 带 字 段 名 的 元 组 和 一 
个 有 名 字 的 类 一 一 这 个 带 名 字 的 类 对 调试 程序 有 很 大 帮助 。 












































A 用 namedtuple 构建 的 类 的 实例 所 消耗 的 内 存 跟 元 组 是 一 样 的 ， 因 为 字段 名 都 
被 存在 对 应 的 类 里 面 。 这 个 实例 跟 普通 的 对 象 实例 比 起 来 也 要 小 一 些 ， 因 为 Python 
不 会 用 _dict_ “来 存放 这 些 实例 的 属性 。 

















在 第 1 章 的 示例 1-1 中 是 这 样 新 建 Card 类 的 : 


Card = collections.namedtuple('Card', ['rank', 'suit']) 








示例 2-9 展示 了 如 何 用 具名 元 组 来 记录 一 个 城市 的 信息 。 
示例 2-9 定义 和 使 用 具名 元 组 





>>> from collections import namedtuple 

>>> City = namedtuple('City', 'name country population coordinates') © 
>>> tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667)) @ 

>>> tokyo 

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 
139.691667) ) 

>>> tokyo.population © 

36.933 

>>> tokyo.coordinates 

(35.689722, 139.691667) 

>>> tokyo[1] 

‘5p: 











O 创建 一 个 具名 元 组 需要 两 个 参数 ， 一 个 是 类 名 ， 另 一 个 是 类 的 各 个 字段 的 名 字 。 后 者 
可 以 是 由 数 个 字符 串 组 成 的 可 和 迭代 对 象 ， 或 者 是 由 空格 分 隔 开 的 字段 名 组 成 的 字符 串 。 


O 存放 在 对 应 字段 里 的 数据 要 以 一 串 参 数 的 形式 传 入 到 构造 函数 中 《注意 ， 元 组 的 构造 
函数 却 只 接受 单一 的 可 迭代 对 象 ) 。 

O 你 可 以 通过 字段 名 或 者 位 置 来 获取 一 个 字段 的 信息 。 

除了 从 普通 元 组 那里 继承 来 的 属性 之 外 ， 具 名 元 组 还 有 一 些 自己 专 有 的 属性 。 示 例 2-10 


中 就 展示 了 几 个 最 有 用 的 : _fields 类 属性 、 类 方法 _make(iterable) 和 实例 方法 
_asdict(). 

























































































示例 2-10 具名 元 组 的 属性 和 方法 (接续 前 一 个 示例 ) 











>>> City. fields © 
('name', 'country', 'population', 'coordinates') 
>>> LatLong = namedtuple('LatLong', 'lat long') 
>>> delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889)) 
>>> delhi = City._make(delhi_data) @ 
>>> delhi._asdict() © 
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 
21.935), ('coordinates', LatLong(lat=28.613889, long=77.208889))]) 
>>> for key, value in delhi._asdict().items(): 
print(key + ':', value) 


name: Delhi NCR 

country: IN 

population: 21.935 

coordinates: LatLong(lat=28.613889, long=77.208889) 
>>> 














@ fields 属性 是 








个 包含 这 个 类 所 有 字段 名 称 的 元 组 。 





© H _make( ) 通过 接受 一 个 可 连 失 代 对 象 来 生成 这 个 类 的 一 个 实例 ， 它 的 作用 跟 
City(*delhi_data) 是 一 样 的 。 





@ asdict() 把 具名 元 组 以 collections.OrderedDict 的 形式 返回 ， 我 们 可 以 利用 它 


来 把 元 组 里 的 信 ， 





朋友 好 地 呈现 出 来 。 


现在 我 们 知道 了 ， 元 组 是 一 AL ee 型 。 它 的 第 二 个 角色 则 
是 充当 一 个 不 可 变 的 列表 。 下 面 就 来 看 看 它 的 第 二 重 功 能 


2.3.5 ”作为 不 可 变 列表 的 元 组 


如 果 要 把 元 组 当 作 列 表 来 用 的 话 ， 最 好 先 了 解 一 下 它们 的 相似 度 如 何 。 在 表 2-1 中 可 以 清 
AIA BI, BRS ERS 


外 ， 



































元 组 没有 _ reversed __ 
已 ，reversed(my_tuple) 这 个 用 法 在 没有 __reversed _ 的 情况 下 也 是 合法 的 。 


表 2-1: 列表 或 元 组 的 方法 和 属性 (那些 由 object 类 文 持 的 方法 没有 列 出 来 ) 











首 减 元 素 相关 的 方法 之 外 ， 元 组 支持 列表 的 其 他 所 有 方法 。 还 有 一 个 例 














方法 ’ 但 是 这 个 方 沪 ;去 到 只 是 个 优化 而 









































s.__iadd__(s2) 

















S += S2, 就 地 所 接 














s.append(e) 


s.clear() 


在 尾部 添加 一 个 新 元 素 





MER ATA Cs 





s.__contains_ (e) 


s.copy() 


s ERUF e 


列表 的 浅 复制 





s.count(e) 


s.__delitem_ (p) 


e 在 s 中 出 现 的 次 数 











EMEF p 的 元 素 删除 








s.extend(it) 











EH IE AU Z it 追加 给 s 





s.__getitem__(p) 。 e s[p]， 获 取 位 置 p 的 元 素 




































































s.__getnewargs__() 。 在 pickle 中 支持 更 加 优化 的 序列 化 
s.index(e) 。 在 s 中 找到 元 素 e 第 一 次 出 现 的 位 置 
s.insert(p, e) 。 EME p 之 前 插入 元 素 e 
s.__iter__() 。 获取 s 的 迭代 器 

s.__len_() 。 len(s)， 元 素 上 





















































































































































s.__imul__(n) 
s.__rmul__(n) 

s.pop([p]) 。 R 立 于 p 的 元 素 ， 并 返回 它 的 值 
s.remove(e) 。 R 第 一 次 出 现 的 

s.reverse() 。 就 地 把 s 的 元 素 倒 序 排列 

s.__reversed__() 。 倒序 迭代 器 

s.__setitem_(p, e) le s[p] = e， 把 元 素 e 放 在 位 已 经 在 那个 位 置 的 元 素 
s.sort([key], , 就 地 对 s 中 的 元 素 进行 排序 ， 可 选 的 参数 有 键 (key)〉 和 是 否 倒 序 
[reverse]) (reverse) 

















* 反 向 运算 符 在 第 13 章 中 介绍 。 


每 个 Python 程序 员 都 知道 序列 可 以 用 s[a:b] 的 形式 切片 ， 但 是 关于 切片 ， 我 还 想 说 说 它 
的 一 些 不 太 为 人 所 知 的 方面 。 
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在 Python 里 ， 像 列表 (list) 、 元 组 (tuple) 和 字符 串 〈str) 这 类 序列 类 型 都 支持 切 
片 操作 ， 但 是 实际 上 切片 操作 比 人 们 所 想象 的 要 强大 很 多 。 


























这 一 节 主 要 讨论 的 是 这 些 高 级 切片 形式 的 用 法 ， 它 们 的 实现 方法 则 会 在 第 10 章 的 一 个 自 
定义 关 类 里 提 到 。 这 么 做 主要 是 为 了 符合 这 本 书 的 哲学 ， 先 讲 用 法 ， 第 四 部 分 中 再 来 讲 如 何 
| 建 新 类 。 




















2.4.1 为 什么 切片 和 区 间 会 忽略 最 后 一 个 元 系 


在 切片 和 区 间 操 作 里 不 包含 区 间 范 围 的 最 后 一 个 元 素 是 Python 的 风格 ， 这 个 习惯 符合 
Python, C 和 其 他 语言 里 以 0 作为 起 始 下 标的 传统 。 这 样 做 带 来 的 好 处 如 下 。 


。 当 只 有 最 后 一 个 位 置信 息 时 ， 我 们 也 可 以 快速 看 出 切片 和 区 间 里 有 几 个 元 
A: range(3) 和 my_1list[:3] 都 返回 3 个 元 素 。 


当 起 止 位 置信 息 都 可 见 时 ， 我 们 可 以 快速 计算 出 切片 和 区 间 的 长 度 ， 用 后 一 个 数 减 去 
第 一 个 下 标 (stop - start) 即 可 。 












































。 这 样 做 也 让 我 们 可 以 利用 任意 一 个 下 标 来 把 序列 分 割 成 不 重 登 的 两 部 分 ， 只 要 写成 
my_list[:x] 和 my _ 1ist[x:] 就 可 以 了 ， 如 下 所 示 。 








>>> 1 = [16，26，36，46，56，66] 
>>> 1[:2] # 在 下 标 2 的 地 方 分 割 
[10, 20] 

>>> 1[2:] 

[30, 40, 50, 60] 

>>> 1[:3] # 在 下 标 3 的 地 方 分 割 
[10, 20, 30] 

>>> 1[3:] 

[40, 50, 62] 














计算 机 科学 家 Edsger W. Dijkstar 对 这 一 风格 的 解释 应 该 是 最 好 的 ， 详 见 “ 延 伸 阅 读 ” 中 给 出 
的 最 后 一 个 参考 资料 。 


接 下 来 进一步 看 看 Python 解释 器 是 如 何 理解 切片 操作 的 。 
2.4.2 ”对 对 象 进行 切 片 























一 个 众所周知 的 秘密 是 ， 我 们 还 可 以 用 s[a:b:c] 的 形式 对 s 在 a 和 b 之 间 以 c 为 间隔 
取 值 。c 的 值 还 可 以 为 负 ， 负 值 意 味 着 反 向 取 值 。 下 面 的 3 个 例子 更 直观 些 : 





>>> s = ‘bicycle’ 
>>> s[::3] 
‘bye! 


>>> s[::-1] 


“elcycib' 
>>> s[i:-2] 
"eccb' 








a eee 第 1 章 中 用 deck[12::13] 的 形式 在 未 洗 过 的 牌 里 把 每 种 花色 的 A 拿 出 





>>> deck[12::13] 
[Card(rank='A', suit='spades'), Card(rank='A', suit='diamonds'), 
Card(rank='A', suit='clubs'), Card(rank='A', suit='hearts')] 











a:b:c 这 种 用 法 只 能 作为 索引 或 者 下 标 用 在 [] 中 来 返回 一 个 切片 对 象 : slice(a，b， 
c)。 在 10.4.1 节 中 会 讲 到 ， 对 seq[start :stop:step] 进行 求 值 的 时 候 ，Python 会 调用 
seq. getitem (slice(start，stop，step))。 就 算 你 还 不 会 自 定义 序列 类 型 ， 了 
a 例如 你 可 以 给 切片 命名 ， 就 像 电 子 表格 软件 里 给 单元 格 区 
字 一 样 。 


比如 ， 要 解析 示例 2-11 中 所 示 的 纯 文 本 文件 ， 这 时 使 用 有 名 字 的 切片 比 用 硬 编码 的 数字 
区 间 要 方便 得 多 ， 注 意 示 例 里 的 for 循环 的 可 读 性 有 多 强 。 


示例 2-11 纯 文本 文件 形式 的 收据 以 一 行 字 符 串 的 形式 被 解析 



























































>>> invoice = """ 


e O's fave ace 和 40........ 52 DD i 
.. 1969 Pimoroni PiBrella $17.50 3 $52.50 
.. 1489 6mm Tactile Switch x20 $4.95 2 $9.90 
.. 1510 Panavise Jr. - PV-201 $28.00 1 $28.00 

. 1601 PiTFT Mini Kit 320x240 $34.95 1 $34.95 


>>> SKU = slice(@, 6) 
>>> DESCRIPTION = slice(6, 40) 
>>> UNIT_PRICE = slice(4@, 52) 
>>> QUANTITY = slice(52, 55) 
>>> ITEM_TOTAL = slice(55, None) 
>>> line_items = invoice.split('\n')[2:] 
>>> for item in line_items: 
print(item[UNIT PRICE], item[DESCRIPTION] ) 


$17.50 Pimoroni PiBrella 
$4.95 6mm Tactile Switch x20 

$28.00 Panavise Jr. - PV-201 

$34.95 PiTFT Mini Kit 320x240 








在 10.4 节 还 有 更 多 机 会 来 了 解 切 片 (slice) 对象。 如果 从 Python 用 户 的 角度 出 发 ， 切 
片 还 有 个 两 个 额外 的 功能 : 多 维 切片 和 省 略 表 示 法 (...) 。 


2.4.3 多维 切 片 和 省 略 


[] 运算 符 里 还 可 以 使 用 以 人 逗 号 分 开 的 多 个 索引 或 者 是 切片 ， 外 部 库 NumPy 里 就 用 到 了 这 
个 特性 ， 二 维 的 numpy.ndarray 就 可 以 用 ali, j] 这 种 形式 来 获取 ， 抑 或 是 用 a[m:n， 
k:1] 的 方式 来 得 到 二 维 切 片 。 稍 后 的 示例 2-22 会 展示 这 个 用 法 。 要 正确 处 理 这 种 [] 运 
























































算 符 的 话 ， 对 象 的 特殊 方法 ”getitem 和 setitem _ 需要 以 元 组 的 形式 来 接收 
ali, j] 中 的 索引 。 也 就 是 说 ， 如 果 要 得 到 a[i，jJj] 的 值 ，Python 会 调用 
a. getitem ((i, j)). 


Python 内 置 的 序列 类 型 都 是 一 维 的 ， 因 此 它们 只 支持 单一 的 索引 ， 成 对 出 现 的 索引 是 没有 
用 的 。 























省 略 (ellipsis〉 的 正确 书写 方法 是 三 个 英语 句号 (...) ， 而 不 是 Unicdoe 码 位 U+2026 
表示 的 半 个 省 略 号 〈…) o BRE Python 解析 器 眼 里 是 一 个 符号 ， 而 实际 上 它 是 Ellipsis 
对 象 的 别名 ， 而 Ellipsis 对 象 又 是 ellipsis 类 的 单一 实例 。? 它 可 以 当 作 切片 规范 的 
一 部 分 ， 也 可 以 用 在 函数 的 参数 清单 中 ， 比 如 f(a，...，z), 或 a[i:...]。 在 NumPpy 
中 ，... 用 作 多 维 数组 切片 的 快捷 方式 。 如 果 x 是 四 维 数 组 ， 那 么 x[i，...] 就 是 x[i， 
:，:，:] 的 缩写 。 如 果 想 了 解 更 多 ， 请 参见 “Tentative NumPy 

Tutorial” Chttp://wiki.scipy.org/Tentative NumPy Tutorial) 。 











?是 的 ， 你 没 看 错 ，ellipsis 是 类 名 ， 全 小 写 ， 而 它 的 内 置 实例 写作 Ellipsis. XKR bool 是 小 写 ， 但 是 它 的 两 
个 实例 写作 True 和 False 异曲同工 。 



































在 写 这 本 书 的 时 候 ， 我 还 没有 发 现在 Python 的 标准 库 里 有 任何 Ellipsis 或 者 是 多 维 索 
引 的 用 法 。 如 果 你 知道 ， 请 告诉 我 。 这 些 句法 上 的 特性 主要 是 为 了 支持 用 户 自 定义 类 或 者 
扩展 ， 比 如 Numpy 就 是 个 例子 。 


除了 用 来 提取 序列 里 的 内 容 ， 切 片 还 可 以 用 来 就 地 修改 可 变 序 列 ， 也 就 是 说 修改 的 时 候 不 
需要 重新 组 建 序列 。 


2.4.4 给 切片 赋值 


如 果 把 切片 放 在 赋值 语句 的 左边 ， 或 把 它 作 为 del 操作 的 对 象 ， 我 们 就 可 以 对 序列 进行 
嫁接 、 切 除 或 就 地 修改 操作 。 通 过 下 面 这 几 个 例子 ， 你 应 该 就 能 体会 到 这 些 操 作 的 强大 功 


ab 
He: 


























>>> 1 = list(range(1@) ) 

>>> 1 

[@, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

>>> 1[2:5] = [20, 30] 

>>> 1 

[Ə, 1, 20, 30, 5, 6, 7, 8, 9] 

>>> del 1[5:7] 

>>> 1 

[Ə, 1, 20, 30, 5, 8, 9] 

>>> 1[3::2] = [11, 22] 

>>> 1 

[@, 1, 20, 11, 5, 22, 9] 

>>> 1[2:5] = 100 @ 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: can only assign an iterable 

>>> 1[2:5] = [100] 

>>> 1 

[6, 1, 100, 22, 9] 











O WRB HI ZENI, AS 2 MEL ea A A Ze ST TS FR BERA A 
独 一 个 值 ， 也 要 把 它 转 换 成 可 迭代 的 序列 。 


序列 的 拼接 操作 可 谓 是 众所周知 ， 任 何 一 本 Python 入 门 教材 都 会 介绍 + 和 * 的 用 法 ， 但 
是 在 这 些 用 法 的 背后 还 有 一 些 可 能 被 忽视 的 细节 。 下 面 就 来 看 看 这 两 种 操作 。 

















2.5 XIF AJE H +A * 


Python 程序 员 会 默认 序列 是 支持 + 和 * 操作 的 。 通 常 + 号 两 侧 的 序列 由 相同 类 型 的 数据 
所 构成 ， 在 拼接 的 过 程 中 ， 两 个 被 操作 的 序列 都 不 会 被 修改 ，Python 会 新 建 一 个 包含 同样 
类 型 数据 的 序列 来 作为 拼接 的 结果 


如 果 想 要 把 一 个 序列 复制 几 份 然后 再 拼接 起 来 ， 更 快捷 的 做 法 是 把 这 个 序列 乘 以 一 个 整 
数 。 同 样 ， 这 个 操作 会 产生 一 个 新 序列 : 



































>>> 1 = [1, 2, 3] 

>> 1*5 

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3] 
>>> 5 * ‘abcd' 

"abcdabcdabcdabcdabcd ' 








+ 和 * 都 遵循 这 个 规律 ， 不 修改 原 有 的 操作 对 象 ， 而 是 构建 一 个 全 新 的 序列 。 














By 如 果 在 a * n 这 个 语句 中 ， 序 列 a 里 的 元 素 是 对 其 他 可 变 对 象 的 引用 的 话 ， 
你 就 需要 格外 注意 了 ， 因 为 这 个 式 子 的 结果 可 能 会 出 乎 意料 。 比 如 ， 你 想 用 
my_list = [[]] * 3 来 初始 化 一 个 由 列表 组 成 的 列表 ， 但 是 你 得 到 的 列表 里 包含 
想 要 的 效果 。 


下 面 来 看 看 如 何 用 * 来 初始 化 一 个 由 列表 组 成 的 列表 。 
建立 由 列表 组 成 的 列表 
有 时 我 们 会 需要 初始 化 一 个 柑 套 着 几 个 列表 的 列表 ， 辟 如 一 个 列表 可 能 需要 用 来 存放 不 同 


的 学 生 名 单 ， 或 者 是 一 个 井 字 游戏 板 了 上 的 一 行 方块 。 想 要 达成 这 些 目 的 ， 最 好 的 选择 是 
使 用 列表 推导 ， 见 示例 2-12. 



































3 又 称 过 三 关 ， 是 一 种 在 3x3 的 方块 矩阵 上 进行 的 游戏 。 一 一 译 者 注 


























示例 2-12 一 个 包含 3 个 列表 的 列表 ， 藤 套 的 3 个 列表 各 自 有 3 个 元 素来 代表 井 字 
游戏 的 一 行 方块 
>>> board = [['_'] * 3 for i in range(3)] © 


>>> board. 


b P’ 


TES 'L CL 
>>> a tae =. a- 
>>> board 


D’ 

















T E De eae 
列表 。 





名 把 第 1 行 第 2 列 的 元 素 标记 为 X， 再 打印 出 这 个 列表 。 
示例 2-13 展示 了 另 一 个 方法 ， 这 个 方法 看 上 去 是 个 诱 人 的 捷径 ， 但 实际 上 它 是 错 的 。 


示例 2-13 含有 3 个 指向 同一 对 象 的 引用 的 列表 是 晶 无 用 处 的 

















>>> weird_board = [['_'] * 3] *3@0 

>>> weird_board 

[['_', paar ‘"], [rs eer L os nrg 7] 
>>> weird_board[1][2] = '0' @ 

>>> weird_board 


CES 3 ta'y ‘O'], ['_', ney ‘O'], Ps vey '0']] 











@ 外 面 的 列表 其 实 包含 3 个 指向 同一 个 列表 的 引用 。 当 我 们 不 做 修改 的 时 候 ， 看 起 来 都 
还 好 。 


@ 一 旦 我 们 试图 标记 第 1 行 第 2 列 的 元 素 ， 就 立马 暴露 了 列表 内 的 3 个 引用 指向 同一 个 
对 象 的 事实 。 


示例 2-13 犯 的 错误 本 质 上 跟 下 面 的 代码 犯 的 错误 一 样 : 

















row=['_'] * 3 

board = [] 

for i in range(3): 
board.append(row) @ 








@ 追加 同一 个 行 对 象 (row) 3 次 到 游戏 板 (board) 。 
相反 ， 示 例 2-12 中 的 方法 等 同 于 这 样 做 : 








>>> board = [] 

>>> for i in range(3): 
row=['_'] *3#@0 
board. append(row) 


>>> board 

[['_', Ts "| E 3 — 
>>> board[2][@] = 'X' 

>>> board # @ 

Es her a I [ss CG ls ['X', sear 7] 











@ 每 次 迭代 中 都 新 建 了 一 个 列表 ， 作 为 新 的 一 行 Crow) 追加 到 游戏 板 Cboard) 。 
O 正如 我 们 所 期 待 的 ， 只 有 第 2 行 的 元 素 被 修改 。 
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Fro FH 8 章 里 我 们 会 详细 说 明 引 用 和 可 变 对 象 背 后 的 原理 和 陷阱 。 


我 们 一 直 在 说 + 和 *， 但 是 别 忘 了 我 们 还 有 += 和 *=。 随 着 目标 序列 的 可 变性 的 变化 ， 这 




















个 两 个 运算 符 的 结果 也 大 相 径 胜 。 下 一 节 就 来 详细 讨论 。 


2.6 Fras Gel 


增 量 赋 值 运算 符 += 和 *= 的 表现 取决 于 它们 的 第 一 个 操作 对 象 。 简 单 起 见 ， 我 们 把 讨论 
集中 在 增 量 加 法 +=)》 上， 但 是 这 些 概念 对 *= 和 其 他 卉 量 运算 符 来 说 都 是 一 样 的 。 


+= 背后 的 特殊 方法 是 _ iadd (用 于 “就 地 加 法 ”) 。 但 是 如 果 一 个 类 没有 实现 这 个 方 
法 的 话 ，Python 会 退 一 步调 用 __add  。 考 虑 F 面 这 个 简单 的 表达 式 : 


>>> a += b 


如 果 a 实现 了 _ iadd_ 方法， 就 会 调用 这 个 方法 。 同 时 对 可 变 序 列 《 例 如 

list, bytearray 和 array.array) 来 说 ，a 会 就 地 改动 ， 就 像 调用 了 a.extend(b) 
一 样 。 但 是 如 果 a 没有 实现 ”iadd _ 的 话 ，a += b 这 个 表达 式 的 效果 就 变 得 跟 a = a 
+ b 一 样 了 : 首先 计算 a + b， 得 到 一 个 新 的 对 象 ， 然 后 赋值 给 a。 也 就 是 说 ， 在 这 个 表 
BAH 变量 名 会 不 会 被 关联 到 新 的 对 象 ， 完全 取决 于 这 个 类 型 有 没有 实现 _iadd ix 
上 方法 。 


总 体 来 讲 ， 可 变 序 列 一 般 都 实现 了 _ iadd 方法， 因此 += 是 就 地 加 法 。 而 不 可 变 序列 
根本 就 不 支持 这 个 操作 ， 对 这 个 方 沃 的 实现 包 就 无 从 谈 起 。 


上 面 所 说 的 这 些 关于 += 的 概念 也 适用 于 *=， 不 同 的 是 ， 后 者 相对 应 的 是 imul. X 
于 _iadd 和 imul ,第 13 章 中 会 再 次 提 到 。 


接 下 来 有 个 小 例子 ， 展 示 的 是 *= 在 可 变 和 不 可 变 序列 上 的 作用 : 











pea 

























































































>>> 1 = [1, 2, 3] 
>>> id(1) 
4311953800 @ 
>>> 1 *= 2 

>>> 1 

[1, 2, 3, 1, 2, 3] 
>>> id(1) 
4311953800 @ 
>>> t = (1, 2, 3) 
>>> id(t) 
4312681568 © 
>>> t *=2 

>>> id(t) 
4301348296 © 


O KFIR ID. 
O 运用 增 量 乘法 后 ， 列 表 的 D 没 变 ， 新 元 素 追 加 到 列表 上 。 
© 元 组 最 开始 的 ID. 

四 运用 增 量 乘法 后 ， 新 的 元 组 被 创建 。 












































对 不 可 变 序列 进行 重复 拼接 操作 的 话 ， 效 率 会 很 低 ， 因 为 每 次 都 有 二 个 新 对 象 ， 而 解释 器 
需要 把 原来 对 象 中 的 元 素 先 复制 到 新 的 对 象 里 ， 然 后 再 追加 新 的 元 素 。4 
































4str 是 一 个 例外 ， 因 为 对 字符 串 做 += 实在 是 太 普 遍 了 ， Pi EA CPython efit TL. A str 初 如 化 由 在 的 时 候 ; HE 
序 会 为 它 留 出 额外 的 可 扩展 空间 ， 因 此 进行 增 量 操 作 的 时 候 ， 并 不 会 涉及 复制 原 有 字符 串 到 新 位 置 这 类 操作 。 


















































我 们 已 经 认识 了 += 的 一 般 用 法 ， 下 面 来 看 一 个 有 意思 的 边界 情况 。 这 个 例子 可 以 说 是 突 
出 展示 了 “不 可 变性 ”对 于 元 组 来 说 到 底 意味 着 什么 。 


一 个 关于 += 的 谜 是 


读 完 下 面 的 代码 ， 然 后 回答 这 个 问题 : 示例 2-14 中 的 两 个 表达 式 到 底 会 产生 什么 结果 ? 
5 回答 之 前 不 要 用 控制 台 去 运行 这 两 个 式 子 。 




















5 感谢 Leonardo Rochael 在 2013 年 的 Python 巴西 会 议 上 提 到 这 个 谜 题 





示例 2-14 ”一 个 谜 题 





>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 


到 底 会 发 生 下 面 4 种 情况 中 的 哪 一 种 ? 

a. 七 变 成 (1，2，[38，46，56，66])。 

b. ALA tuple 不 支持 对 它 的 元 素 赋值 ， 所 以 会 抛 出 TypeError À 
c. 以 上 两 个 都 不 是 。 

da 和 hb 都 是 对 的 。 

我 刚 看 到 这 个 问题 的 时 候 ， 异常 确定 地 选择 了 b， 但 其 实 答案 是 d， 也 就 是 说 a 和 b 都 是 


a, 示例 2-15 是 运行 这 段 代 码 得 到 的 结果 ， 用 的 Python 版 本 是 3.4， 但 是 在 2.7 中 结果 
也 一 样 

















3% 









































5 有 读者 提出 ， 如 果 写 成 t[2] .extend([56，66]) 就 能 避免 这 个 异常 。 确 实 是 这 样 ， 但 这 个 例子 是 为 了 展示 这 种 奇怪 
的 现象 而 专门 写 的 。 














示例 2-15 没 人 料 到 的 结果 : t[2] 被 改动 了 ， 但 是 也 有 异常 抛 出 








>>> t = (1, 2, [30, 40]) 
>>> t[2] += [50, 60] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 
>> t 
(1, 2, [30, 40, 50, 60]) 











Python Tutor Chttp://www.pythontutor.com) 是 一 个 对 Python 运行 原理 进行 可 视 化 分 析 的 工 
有 具 。 图 2-3 里 是 两 张 截图 ， 分 别 代表 示例 2-15 P t 的 初始 和 最 终 状态 。 











t= (1, 2, [36, 40]) Frames Objects 
= t[2] += [50, 60] Global frame tuple ist 
E-o a o ji 
Edit code t E HAE 30 | 40 
<<First | | <Back | Step 2 of 2 | Forward > Last >> 
t has ju 
=n ne te 
t = (1, 2, [30, 40]) Frames Objects 
= t[2] += [50, $0] Global frame tuple ist 
ee el ee 0 1 2 3 
Edit code S 4 | :2 -| 30 | 40 | 50 | 60 

















<< First <Back | Program terminated Forw Last 


TypeError: ‘tuple’ object does not support item assignment 


ne that has just executed 


2-3: 元 组 赋值 之 谜 的 初始 和 最 终 状 态 〈 图 表 由 Python Tutor 网 站 生成 ) 


下 面 来 看 看 示例 2-16 中 Python 为 表达 式 s[a] += b 生成 的 字 节 码 ， 可 能 这 个 现象 背后 的 
原因 会 变 得 清晰 起 来 。 


示例 2-16 s[a] = b 背后 的 字 节 三 





>>> dis.dis('s[a] += b') 
1 @ LOAD_NAME o(s) 

3 LOAD_NAME 1(a) 
6 DUP_TOP_TWO 
7 BINARY_SUBSCR 
8 LOAD_NAME 2(b) 
11 INPLACE_ADD 
12 ROT_THREE 
13 STORE_SUBSCR 
14 LOAD_CONST @(None) 
17 RETURN_VALUE 








@ 将 sla] 的 值 存 入 TOS (Top OfStack， 栈 的 顶端 ) 。 


@ it # TOS += b。 这 一 步 能 够 完成 ， 是 因为 TOS 指向 的 是 一 个 可 变 对 象 〈 也 就 是 示例 
2-15 里 的 列表 ) 。 


© s[a] = TOS 赋值 。 这 一 步 失败 ， 是 因为 s 是 不 可 变 的 元 组 (示例 2-15 中 的 元 组 
七 ) 。 


这 其 实 是 个 非常 罕见 的 边界 情况 ， 在 15 年 的 Python 生涯 中 ， 我 还 没 见 过 谁 在 这 个 地 方 吃 
过 亏 。 











至 此 我 得 到 了 3 个 教训 。 
。 不 要 把 可 变 对 象 放 在 元 组 里 面 。 


Ft orl eet Eee gn tere eran 
操作 。 


。 AA Python 的 字 节 码 并 不 难 ， 而 且 它 对 我 们 了 解 代码 背后 的 运行 机 制 很 有 帮助 。 


he Sal a 
Fo 






































2.7 1ist.sort 方 法 和 内 置 函数 sorted 


list.sort 方法 会 就 地 排序 列表 ， 也 就 是 说 不 会 把 原 列 表 复 制 一 份 。 这 也 是 这 个 方法 的 
返回 值 是 None 的 原因 ， 提 醒 你 本 方法 不 会 新 建 一 个 列表 。 Ne ae None 其 实 
是 Python 的 一 个 惯例 ， 如 果 一 个 函数 或 者 方法 对 对 象 进行 的 是 就 地 改动 ， 那 它 就 应 该 返 
回 None， 好 让 调用 者 知道 传 入 的 参数 发 生 了 变动 ， 而 且 并 未 产生 新 的 对 象 。 例 

W, random. shuffle 函数 也 遵守 了 这 个 惯例 。 



































` 用 返回 None KAA aAA ig» A el Fa CIE EL E 
起 来 。 而 返回 一 个 新 对 象 的 方法 (比如 说 str 里 的 所 有 方法 ) 则 正好 相反 ， 它 们 可 
以 串联 起 来 调用 ， 从 而 形成 连贯 接口 (uent interface) 。 详 情 参 见 维基 百科 中 有 关连 
贯 接口 的 讨论 Chttps://en.wikipedia.org/wiki/Fluent interface) 。 


与 list.sort 相反 的 是 内 置 函数 sorted， 它 会 新 建 一 个 列表 作为 返回 值 。 这 个 方法 可 以 
接受 任何 形式 的 可 和 迭代 对 象 作为 参数 ， 甚 至 包括 不 可 变 序列 或 生成 器 《〈 见 第 14 章 ) 。 而 
不 管 sorted 接受 的 是 怎样 的 参数 ， 它 最 后 都 会 返回 一 个 列表 。 


不 管 是 1ist.sort 方法 还 是 sorted 函数 ， 都 有 两 个 可 选 的 关键 字 参 数 。 


















































reverse 


如 果 被 设 定 为 True， 被 排序 的 序列 里 的 元 素 会 以 降序 输出 《也 就 是 说 把 最 大 值 当 作 
最 小 值 来 排序 ) 。 这 个 参数 的 默认 值 是 False。 








Key 


一 个 只 有 一 个 参数 的 函数 ， 这 个 函数 会 被 用 在 序列 里 的 每 一 个 元 素 上 ， 所 产生 的 结 
将 是 排序 算法 依赖 的 对 比 关键 字 。 比 如 说 ， 在 对 一 些 字符 串 排 序 时 ， 可 以 用 
key=str. lower 来 实现 忽略 大 小 写 的 排序 ， 或 者 是 用 key=len 进行 基于 字符 串 长 度 的 排 
这 个 参数 的 默认 值 是 恒 等 函数 (identity function〉， 也 就 是 默认 用 元 素 自己 的 值 来 排 
了 。 





























~I 可 选 参数 key 还 可 以 在 内 置 函数 min() 和 max() 中 起 作用 。 另 外 ， 还 有 些 标 
准 库 里 的 函数 也 接受 这 个 参数 ， 像 itertools.groupby() 和 heapq.nlargest() 
Age 





下 面 通过 几 个 小 例子 来 看 看 这 两 个 函数 和 它们 的 关键 字 参 数 : 7 


”这 几 个 例子 还 说 明了 Python 的 排序 算法 一 一 Timsort 一 一 是 稳定 的 ， 意 思 是 就 算 两 个 元 素 比 不 出 大 小 ， 在 每 次 排序 的 
结果 里 它们 的 相对 位 置 是 固定 的 。Timsort 在 本 章 结尾 的 “杂谈 ”里 会 有 进一步 的 讨论 。 





































































































>>> fruits = ['grape', ‘raspberry', ‘apple’, 'banana'] 
>>> sorted(fruits) 


['apple', 'banana', 'grape', 'raspberry'] © 
>>> fruits 

['grape', 'raspberry', ‘apple’, 'banana'] @ 
>>> sorted(fruits, reverse=True) 
['raspberry', 'grape', ‘banana’, ‘apple'] © 
>>> sorted(fruits, key=len) 

['grape', 'apple', 'banana', 'raspberry'] @ 
>>> sorted(fruits, key=len, reverse=True) 
['raspberry', ‘banana’, 'grape', ‘apple'] © 
>>> fruits 

['grape', ‘raspberry’, ‘apple’, 'banana'] © 
>>> fruits.sort() (7) 
>>> fruits 

['apple', 'banana', 'grape', 'raspberry'] © 














O 新 建 了 一 个 按照 字母 排序 的 字符 串 列表 。 
O 原 列表 并 没有 变化 。 
© 按照 字母 降序 排序 。 


O 新 建 一 个 按照 长 度 排 序 的 字符 串 列 表 。 因 为 这 个 排序 算法 是 稳定 的 ，grape 和 apple 的 
长 度 都 是 5， 它 们 的 相对 位 置 跟 在 原来 的 列表 里 是 一 样 的 。 


O 按照 长 度 降序 排序 的 结果 。 结 果 并 不 是 上 面 那个 结果 的 完全 翻转 ， 因 为 用 到 的 排序 算 
法 是 稳定 的 ， 也 就 是 说 在 长 度 一 样 时 ，grape 和 apple 的 相对 位 置 不 会 改变 。 


@ 直到 这 一 步 ， 原 列表 fruits 都 没有 任何 变化 。 

O 对 原 列 表 就 地 排序 ， 返 回 值 None 会 被 控制 台 忽略 。 

@ 此 时 fruits 本 身 被 排序 。 

已 排序 的 序列 可 以 用 来 进行 快速 搜索 ， 而 标准 库 的 bisect 模块 给 我 们 提供 了 二 分 查找 算 


法 。 下 一 节 会 详细 讲 这 个 函数 ， 顺 便 还 会 看 看 bisect.insort 如 何 让 已 排序 的 序列 保持 
有 序 。 














































































































2.8 用 bisect 来 管理 已 排序 的 序列 





bisect 模块 包含 两 个 主要 函数 ， 
有 序 序列 中 查找 或 插入 元 素 。 


2.8.1 用 bisect 来 搜索 


bisect(haystack, needle) 在 














bisect fl insort， 两 个 函数 都 利用 二 分 查找 算法 来 在 


haystack (FRYE) 里 搜索 needle (it) 的 位 置 ， 该 





位 置 满足 的 条 件 是 ， 把 needle H 
说 这 个 函数 返回 的 位 置 前 面 的 值 ， 
个 有 序 的 序列 。 你 可 以 先 用 bise 











入 这 个 位 置 之 后 ，haystack 还 能 保持 升序 。 也 就 是 在 
都 小 于 或 等 于 needle 的 值 。 其 中 haystack 必须 是 一 
ct(haystack, needle) 查找 位 置 ijndex， 再 用 


haystack.insert(index, needle) 来 插入 新 值 。 但 你 也 可 用 insort 来 一 步 到 位 ， 并 


且 后 者 的 速度 更 快 一 些 。 








Chttp://code.activestate.com/reci 





~i Python 的 高 产 贡献 者 Raymond Hettinger 写 了 一 个 排序 集合 模块 


pes/577197-sortedcollection/) ， 模 块 里 集成 了 bisect 


功能 ， 但 是 比 独 立 的 bisect 更 易 用 。 
示例 2-17 利用 几 个 精心 挑选 的 needle， 向 我 们 展示 了 bisect 返回 的 不 同位 置 值 。 这 段 





代码 的 输出 结果 显示 在 图 2-4 中 。 








示例 2-17 在 有 序 序列 中 用 bisect 查找 某 个 元 素 的 插入 位 置 





import bisect 
import sys 


ROW_FMT = '{@:2d} @ {1:2d}  {2}{@ 


def demo(bisect_fn): 
for needle in reversed(NEEDLES) 


offset = position * ' |' 
print (ROW_FMT.format (needle 


if _name == ' main_': 
if sys.argv[-1] == ‘left': @ 


else: 
bisect_fn = bisect.bisect 


demo(bisect_fn) 





HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30] 
NEEDLES = [@, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31] 


:<2d}' 


position = bisect_fn(HAYSTACK, needle) © 


, position, offset)) © 


bisect_fn = bisect.bisect_left 


print('DEMO:', bisect fn. _ name ) © 
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK)) 








@ 用 特定 的 bisect 函数 来 计算 元 素 应 该 出 现 的 位 置 。 
四 利用 该 位 置 来 算出 需要 几 个 分 隔 符号 。 

O 把 元 素 和 其 应 该 出 现 的 位 置 打印 出 来 。 

O 根据 命令 上 最 后 一 个 参数 来 选用 bisect 函数 。 

© 把 选 定 的 函数 在 抬头 打印 出 来 。 


02-array-seq/ $ python3 bisect_demo.py 
DEMO: bisect 
haystack -> 


3% 
30 





其 应 该 插入 的 位 置 ) 开始 ， 


首先 可 以 用 它 的 两 个 可 选 参数 一 一 lo 和 hi 一 一 来 缩小 扫 
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图 2-4: 用 bisect 函数 时 示例 2-17 的 输出 。 每 一 行 以 needle @ position (元 素 及 














然后 展示 了 该 元 素 在 原 序 列 中 的 物理 位 置 
bisect 的 表现 可 以 从 两 个 方面 来 调教 。 





的 默认 值 是 序列 的 长 度 ， 即 len() 作用 于 该 序列 的 返回 值 。 


其 次 





返回 的 则 是 跟 它 相等 的 元 素 之 后 的 位 置 。 
用 ， 但 是 对 于 那些 值 相等 但 是 形式 不 同 的 数据 类 型 来 讲 ， 乡 

















BSAC. lo 的 默认 值 是 6，hi 


，bisect 函数 其 实 是 bisect_right 函数 的 别名 ， 后 者 还 有 个 姊妹 函数 叫 
bisect_left。 它 们 的 区 别 在 于 ，bisect_left 返回 的 可 








ji 入 位 置 是 原 序列 中 跟 被 插入 元 




















素 相 等 的 元 素 的 位 置 ， 也 就 是 新 元 素 会 被 放置 于 它 相等 的 元 素 的 前 面 ， 而 bisect_right 
这 个 细微 的 差别 可 能 对 于 整数 序列 来 讲 没什么 
结果 就 不 一 样 了 。 比 如 说 虽然 1 














== 1.0 的 返回 值 是 True, 1 和 1.6 其 实 是 两 个 不 同 的 元 素 。 图 
bisect_left 来 运行 上 述 示例 的 结果 。 





2-5 显示 的 是 用 


@2-array-seq/ $ python3 bisect_demo.py left 
DEMO: bisect_left 
haystack -> 1 4 
31 @ 14 | 
30 @ 13 
29 @ 12 
23 
22 
10 
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I L isu 
| 130 


23 23 26 29 30 
i 
| | 
| | te 


5 20 21 
ae ta 
kook 4 
i ol 
| | 
| | 


5 6 
| | 
Len 
| | 
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| | 
| | 
| | 


| 
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| 
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| 
| 
| 8 
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1 
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图 2-5: 用 bisect_left 运行 示例 2-17 SIN ZR GRA 2-4 对 比 可 以 发 现 ， 值 
1、8、23、29 和 30 的 插入 位 置 变 成 了 原 序 列 中 这 些 值 的 前 面 ) 


bisect 可 以 用 来 建立 一 个 用 数字 作为 索引 的 查询 表格 ， 比 如 说 把 分 数 和 成 绩 & 对 应 起 
来 ， 见 示例 2-18。 


QBO@o®OQ®® ® ® 
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2 
1 
0 
5: 























SRST ATES OE PAE ANF 字母 成 绩 ，A 表示 优秀 ，F 表示 不 及 格 。 一 译 者 注 

















示例 2-18 根据 一 个 分 数 ， 找 到 它 所 对 应 的 成 绩 





>>> def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'): 
i = bisect.bisect(breakpoints, score) 
return grades[i] 


>>> [grade(score) for score in [33, 99, 77, 70, 89, 90, 100]] 
['F', 'A', mG 5 Ery 'B', ATs 'A'] 








示例 2-18 里 的 代码 来 自 bisect 模块 的 文档 
(https://docs.python.org/3/library/bisect.html) 。 文 档 里 列举 了 一 些 利 用 bisect 的 函数 ， 
它们 可 以 在 很 长 的 有 序 序列 中 作为 index 的 替代 ， 用 来 更 快 地 查找 一 个 元 素 的 位 置 。 


这 些 函 数 不 但 可 以 用 于 查找 ， 还 可 以 用 来 向 序列 中 插入 新 元 素 ， 下 面 就 来 看 看 它们 的 用 
> 


y 








Bo 


2.8.2 ”用 bisect.insort 插 入 新 元 素 


排序 很 耗 时 ， 因 此 在 得 到 一 个 有 序 序列 之 后 ， 我 们 最 好 能 够 保持 它 的 有 
序 。bisect.insort 就 是 为 了 这 个 而 存在 的 。 











insort(seq, item) 把 变量 item 插入 到 序列 seq 中 ， 并 能 保持 seq 的 升序 顺序 。 详 见 
示例 2-19 和 它 在 图 2-6 里 的 输出 。 


示例 2-19 insort 可 以 保持 有 序 序列 的 顺序 














import bisect 
import random 


SIZE=7 
random.seed(1729) 


my_list = [] 

for i in range(SIZE): 
new_item = random.randrange(SIZE*2) 
bisect.insort(my_list, new_item) 
print('%2d ->' % new_item, my_list) 





Q@2-array-seq/ $ python3 bisect_insort.py 


10 -> [10] 

0 -> [@, 10] 

6 -> [0，6，10] 

8 -> [0，6，8，10] 

7 -> [0，6，7，8，10] 

2 -> [0 2; 6; 78. 10] 

10 -> [@, 2, 6, 7, 8, 10, 10] 





图 2-6: 示例 2-19 的 输出 


insort 跟 bisect 一 样 ， 有 lo 和 hi 两 个 可 选 参数 用 来 控制 查找 的 范围 。 它 也 有 个 变 体 
叫 insort_left， 这 个 变 体 在 背后 用 的 是 bisect_left。 


目前 所 提 到 的 内 容 都 不 仅仅 是 对 列表 或 者 元 组 有 效 ， 还 可 以 应 用 于 几乎 所 有 的 序列 类 型 

上 。 有 时 候 因为 列表 实在 是 太 方便 了 ， 所 以 Python 程序 员 可 能 会 过 度 使 用 它 ， 反 正 我 知 

道 我 犯 过 这 个 毛病 。 而 如 果 你 只 需要 处 理 数字 列表 的 话 ， 数 组 可 能 是 个 更 好 的 选择 。 下 面 
就 来 讨论 一 些 可 以 替换 列表 的 数据 结构 。 


















































2.9 ” 当 列 表 不 是 站 选 时 


虽然 列表 既 灵 活 又 简单 ， 但 面 对 各 类 需求 时 ， 我 们 可 能 会 有 更 好 的 选择 。 比 如 ， 要 存放 
1000 万 个 浮 点 数 的 话 ， 数 组 Carray) 的 效率 要 高 得 多 ， 因 为 数组 在 背后 存 的 并 不 是 
float 对 象 ， 而 是 数字 的 机 器 翻译 ， 也 就 是 字 节 表述 。 这 一 点 就 跟 C 语言 中 的 数组 一 
样 。 再 比如 说 ， 如 果 需 要 频繁 对 序列 做 先进 先 出 的 操作 ，deque“〈 双 端 队列 ) 的 速度 应 该 
= o 























更 快 

~ 如 果 在 你 的 代码 里 ， 包 含 操作 (比如 检查 一 个 元 素 是 否 出 现在 一 个 集合 中 ) 的 
频率 很 高 ， 用 set RE) 会 更 合适 。set 专 为 检查 元 素 是 否 存在 做 过 优化 。 但 是 它 
并 不 是 序列 ， 因 为 set 是 无 序 的 。 第 3 章 会 详细 讨论 它 。 


本 章 余下 的 内 容 都 是 关于 在 某 些 情况 下 可 以 蔡 换 列表 的 数据 类 型 的 ， 让 我 们 从 数组 开始 。 


2.9.1 数组 


如 果 我 们 需要 一 个 只 包含 数字 的 列表 ， 那 么 array.array 比 list 更 高 效 。 数 组 支持 所 
有 跟 可 变 序 列 有 关 的 操作 ， 包 括 .pop、.insert 和 .extend。 另 外 ， 数 组 还 提供 从 文件 
读 取 和 存 入 文件 的 更 快 的 方法 ， 如 .frombytes 和 .tofile。 


Python 数组 跟 C 语言 数组 一 样 精简 。 创 建 数组 需要 一 个 类 型 码 ， 这 个 类 型 码 用 来 表示 在 
底层 的 C 语言 应 该 存放 怎样 的 数据 类 型 。 比 如 b 类 型 码 代表 的 是 有 符号 的 字符 (signed 
char) ， 因 此 array('b') 创建 出 的 数组 就 只 能 存放 一 个 字 节 大 小 的 整数 ， 范 围 从 -128 
到 127， 这 样 在 序列 很 大 的 时 候 ， 我 们 能 节省 很 多 空间 。 而 且 Python 不 会 允许 你 在 数组 里 
存放 除 指定 类 型 之 外 的 数据 。 


示例 2-20 展示 了 从 创建 一 个 有 1000 万 个 随机 浮 点 数 的 数组 开始 ， 到 如 何 把 这 个 数组 存放 
到 文件 里 ， 再 到 如 何 从 文件 读 取 这 个 数组 。 


示例 2-20 “一 个 浮 点 型 数组 的 创建 、 存 入 文件 和 从 文件 读 取 的 过 程 










































































>>> from array import array @ 

>>> from random import random 

>>> floats = array('d', (random() for i in range(10**7))) @ 
>>> floats[-1] © 

0.07802343889111107 


>>> fp = open('floats.bin', 'wb') 
>>> floats.tofile(fp) @ 

>>> fp.close() 

>>> floats2 = array('d') © 

>>> fp = open('floats.bin', 'rb') 
>>> floats2.fromfile(fp, 10**7) © 
>>> fp.close() 

>>> floats2[-1] @ 
@.07802343889111107 

>>> floats2 == floats © 





| True 





@ 引入 array 类 型 。 

O 利用 一 个 可 迭代 对 象 来 建立 一 个 双 精 度 浮 点 数组 〈 类 型 码 是 'd' ) ， 这 里 我 们 用 的 可 
迭代 对 象 是 一 个 生成 器 表达 式 。 

O 查看 数组 的 最 后 一 个 元 素 。 
O 把 数组 存 入 一 个 二 进 制 文件 里 。 

O 新 建 一 个 双 精 度 浮 点 空 数组 。 

@ 把 1000 万 个 浮 点 数 从 二 进 制 文件 里 读 取出 来 。 
O 查看 新 数组 的 最 后 一 个 元 素 。 

O 检查 两 个 数组 的 内 容 是 不 是 完全 一 样 。 


从 上 面 的 代码 我 们 能 得 出 结论 ，array .tofile 和 array.fromfile 用 起 来 很 简单 。 把 
这 段 代 码 跑 一 跑 ， 你 还 会 发 现 它 的 速度 也 很 快 。 一 个 小 试验 告诉 我 ， 用 array.fromfile 
从 一 个 二 进 制 文 件 里 读 出 1000 万 个 双 精 度 浮 点 数 只 需要 0.1 秒 ， 这 比 从 文本 文件 里 读 取 
的 速度 要 快 60 倍 ， 因 为 后 者 会 使 用 内 置 的 float 方法 把 每 一 行文 字 转 换 成 浮 点 数 。 另 
外 ， 使 用 array.tofile 写 入 到 二 进 制 文件 ， 比 以 每 行 一 个 浮 点 数 的 方式 把 所 有 数字 写 
入 到 文本 文件 要 快 7 倍 。 另 外 ，1000 万 个 这 样 的 数 在 二 进 制 文 件 里 只 占用 80 000 000 个 
字 节 【每 个 浮 点 数 占 用 8 个 字 节 ， 不 需要 任何 额外 空间 ) ， 如 果 是 文本 文件 的 话 ， 我 们 需 
要 181515 739 个 字 节 。 
























































AI 另外 一 个 快速 序列 化 数字 类 型 的 方法 是 使 用 

pickle (https://docs.python.org/3/library/pickle.html) 模块 。pickle.dump 处 理 浮 点 
数组 的 速度 几乎 跟 array.tofile 一 样 快 。 不 过 前 者 可 以 处 理 几 乎 所 有 的 内 置 数字 
包含 复数 、 髓 套 集合 ， 其 至 用 户 自 定义 的 类 。 前 提 是 这 些 类 没有 什么 特别 复杂 
实现。 


还 有 一 些 特殊 的 数字 数组 ， 用 来 表示 二 进 制 数据 ， 比 如 光栅 图 像 。 里 面 涉及 的 bytes 和 
bytearry 类 型 会 在 第 4 章 提 及 。 


表 2-2 对 数组 和 列表 的 功能 做 了 一 些 总 结 。 


表 2-2: 列表 和 数组 的 属性 和 方法 《不 包含 过 期 的 数组 方法 以 及 那些 由 对 象 实现 的 方 
法 ) 















































列 | 数 
























































s. add(s2) s + s2， 拼 接 

s. iadd(s2) s += s2， 就 地 拼接 

s.append(e) 在 尾部 添加 一 个 元 素 

s.byteswap 翻转 数组 内 每 个 元 素 的 字 节 序列 ， 转 换 字 节 序 
s.clear() j 除 所 有 元 素 

s.__contains__(e) s ERRA e 

s.copy() 对 列表 浅 复制 

s.__copy__() 对 copy.copy 的 支持 

s.count(e) HELA RAL 

s.__deepcopy__() 对 copy.deepcopy 的 支持 





| 除 位 置 p 的 元 素 





























s.__delitem__(p) 
s.extend(it) 将 可 迭代 对 象 it 里 的 元 素 添加 到 尾部 
s.frombytes(b) 压缩 成 机 器 值 的 字 节 序列 读 出 来 添加 至 


wm 


.fromfile(f, n) 


























| 文件 f 内 含有 机 器 值 读 出 来 添加 到 尾部 ， 最 多 添加 1n 项 





wm 


wm 


.fromlist(1) 


._getitem__ (p) 























将 列表 里 





的 元 素 添 加 到 











尾部 ， 如 果 


常 ， 那 么 所 有 的 添加 都 会 取消 

















[p]， 读 取 位 








ip 的 元 素 














Ept 








EA] — CRS 





rE TypeError 异 





wm 


wm 


.index(e) 


-insert(p, e) 


Pe 

















BUR EH SA i 


























在 位 于 p 的 元 素 之 前 插入 元 素 e 











wm 


-itemsize 








数组 中 每 个 元 素 的 长 度 是 几 个 字 节 

























































































































































































































































































s. iter () 返回 迭代 器 

s. len () len(s)， 序 列 的 长 度 

s.__mul__(n) 

s.__imul__(n) 

s.__rmul__(n) 

s-pop([p]) J 回 这 个 值 ，p 的 默认 值 是 最 后 一 个 元 素 的 位 置 
s.remove(e) | 除 序列 里 第 一 次 出 

s.reverse() 就 地 调转 序列 中 元 素 的 位 

s.__reversed__() 返回 一 个 从 尾部 开始 扫描 元 素 的 迭代 器 

E sip] =-。， 把 位 于 p 位 置 的 元 素 普 换 成 。 

o 就 地 排序 序列 ， 可 选 参数 有 key 和 reverse 

s.tobytes() 巴 所 有 元 素 的 机 器 值 用 bytes 对 象 的 形式 返回 

s.tofile(f) 巴 所 有 元 素 以 机 器 值 的 形式 写 入 一 个 文件 

s.tolist() 巴 数组 转换 成 列表 ， 列 表 里 的 元 素 类 型 是 数字 对 象 
s.typecode 返回 只 有 一 个 字符 的 字符 串 ， 代 表 数 组 元 素 在 C 语言 中 的 类 型 

















* 第 13 章 会 讲 反 向 运算 符 。 
从 了 Python 3.4 开始 ， 数 组 类 型 不 再 支持 诸如 list.sort() 这 种 就 地 排序 方法 
数组 排序 的 话 ， 得 用 sorted 函数 新 建 一 个 数组 : 
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。 要 给 











a = array.array(a.typecode, sorted(a)) 


想 要 在 不 打 乱 次 序 的 情况 下 为 数组 添加 新 的 元 素 ，bisect.insort 还 是 能 派 上 用 场 
(就 像 2.8.2 节 中 所 展示 的 ) o 


如 果 你 总 是 跟 数 组 打交道 ， 却 没有 听 过 memoryview， 那 就 太 遗 憾 了 。 下 面 就 来 谈 谈 
memoryview. 


2.9.2 ”内 存 视图 


memoryview 是 一 个 内 置 类 ， 它 能 让 用 户 在 不 复制 内 容 的 情况 下 操作 同一 个 数组 的 不 同 切 
Fro memoryview 的 概念 受到 了 NumPy 的 启发 (参见 2.9.3 47) 。Travis Oliphant 是 
NumPy 的 主要 作者 ， 他 在 回答 “ When should a memoryview be 

used?” (http://stackoverflow.com/questions/4845418/when-should-a-memoryview-be-used/) 这 
个 问题 时 是 这 样 说 的 : 


内 存 视图 其 实 是 泛 化 和 去 数学 化 的 NumPy 数组 。 它 让 你 在 不 需要 复制 内 容 的 前 提 
下 ， 在 数据 结构 之 间 共 享 内 存 。 其 中 数据 结构 可 以 是 任何 形式 ， 比 如 PIL 图 片 、 

SQLite 数据 库 和 NumPy 的 数组 ， 等 等 。 这 个 功能 在 处 理 大 型 数据 集合 的 时 候 非 常 重 
要 。 


memoryview.cast 的 概念 跟 数 组 模块 类 似 ， 能 用 不 同 的 方式 读 写 同一 块 内 存 数 据 ， 而 且 
内 容 字 节 不 会 随意 移动 。 这 上 听 上 去 又 跟 C 语言 中 类 型 转换 的 概念 差 不 
多 。memoryview.cast 会 把 同一 块 内 存 里 的 内 容 打 包 成 一 个 全 新 的 memoryview 对 象 给 


你 。 


在 示例 2-21 里 ， 我 们 利用 memoryview 精准 地 修改 了 一 个 数组 的 某 个 字 节 ， 这 个 数组 的 
元 素 是 16 位 二 进 制 整数 。 
Hr 


示例 2-21 通过 改变 数组 中 的 一 个 字 节 来 更 新 数组 里 某 个 元 素 的 值 













































































>>> numbers = array.array('h', [-2, -1, ©, 1, 2]) 
>>> memv = memoryview(numbers) © 

>>> len(memv) 

5 

>>> memv[6] @ 

-2 

>>> memv_oct = memv.cast('B') © 

>>> memv_oct.tolist() @ 

[254, 255, 255, 255, ©, ©, 1, ©, 2, @] 
>>> memv_oct[5] = 4 © 

>>> numbers 

array('h', [-2, -1, 1024, 1, 2]) © 














@ 利用 含有 5 个 短 整 型 有 符号 整数 的 数组 (类 型 码 是 'h') 创建 一 个 memoryview。 
© memv 里 的 5 个 元 素 跟 数 组 里 的 没有 区 别 。 











© 创建 一 个 memv_oct， 这 一 次 是 把 memv 里 的 内 容 转换 成 'B' 类 型 ， 也 就 是 无 符号 字 
符 。 


O 以 列表 的 形式 查看 memv_oct 的 内 容 。 
O 把 位 于 位 置 5 的 字 节 赋值 成 4。 


O 因为 我 们 把 占 2 个 字 节 的 整数 的 高 位 字 节 改 成 y 4， 所 以 这 个 有 符号 整数 的 值 就 变 成 
了 1624。 





在 第 4 章 的 示例 4-4 中 ， 我 们 还 可 以 看 到 如 何 利 用 memoryview 和 struct 来 操作 二 进 制 
序列 。 


另外 ， 如 果 利 用 数组 来 做 高 级 的 数字 处 理 是 你 的 日 常 工作 ， 那 么 NumPy 和 SciPy 应 该 是 
你 的 常用 武器 。 下 面 就 是 对 这 两 个 库 的 简单 介绍 。 




















2.9.3 NumPy 和 SciPy 


整 本 书 我 都 在 强调 如 何 最 大 限度 地 利用 Python 标准 库 。 但 是 NumPy 和 SciPy 的 优秀 让 我 
觉得 偶尔 跑 个 题 来 谈 谈 它 们 也 是 很 值得 的 。 


凭借 着 NumPy 和 SciPy 提供 的 高 阶 数组 和 矩阵 操作 ，Python 成 为 科学 计算 应 用 的 主流 语 
言 。NumpPy 实现 了 多 维 同 质数 组 (homogeneous array) 和 矩阵， 这 些 数据 结构 不 但 能 处 理 
数字 ， 还 能 存放 其 他 由 用 户 定 义 的 记录 。 通 过 NumPy， 用 户 能 对 这 些 数 据 结 构 里 的 元 素 
进行 高 效 的 操作 。 


SciPy 是 基于 NumPy 的 另 一 个 库 ， 它 提供 了 很 多 跟 科 学 计算 有 关 的 算法 ， 专 为 线性 代数 、 
数值 积分 和 统计 学 而 设计 。SciPy 的 高 效 和 可 靠 性 归功 于 其 背后 的 C 和 Fortran 代码 ， 而 
这 些 跟 计算 有 关 的 部 分 都 源 自 于 Netlib Æ Chttp://www.netlib.org) 。 换 名 话说，SciPy 把 
基于 C 和 Fortran 的 工业 级 数学 计算 功能 用 交互 式 且 高 度 抽象 的 Python 包装 起 来 ， 让 科学 
家 如 鱼 得 水 。 


示例 2-22 是 一 个 很 简短 的 演示 ， 从 中 可 以 宽 见 一 些 NumPy 二 维 数组 的 基本 操作 。 


示例 2-22 对 numpy .ndarray 的 行 和 列 进行 基本 操作 





































































































>>> import numpy © 

>>> a = numpy.arange(12) @ 

>>> a 

array([ ©, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11)) 

>>> type(a) 

<class 'numpy.ndarray'> 

>>> a.shape © 

(12,) 

>>> a.shape = 3, 4 © 

>>> a 

array([[ @, 1, 
[ 4, 5, 
[ 8, 9, 

>>> a[2] © 


2, 3], 
6, 7], 
Q, 


10, 11]]) 





array([ 8, 9, 10, 11]) 

>>> a[2, 1] © 

9 

>> a[:, 1] Q 

array([1, 5, 9]) 

>>> a.transpose() © 

array([[ @, 4, 8]， 
[i 


` 


[ 2 
[ 3, 


` 


5, 
6, 10], 
7, 








O 安装 NumPy 之 后 ， 导 入 它 (NumPy 并 不 是 Python 标准 库 的 一 部 分 ) 。 
O 新 建 一 个 0~11 的 整数 的 numpy.ndarry， 然 后 把 它 打 印 出 来 。 

O 看 看 数组 的 维度 ， 它 是 一 个 一 维 的 、 有 12 个 元 素 的 数组 。 

O 把 数组 变 成 二 维 的 ， 然 后 把 它 打印 出 来 看 看 。 

O 打印 出 第 2 行 。 

@ 打印 第 2 行 第 1 列 的 元 素 。 
@ 把 第 1 列 打 印 出 来 。 

@ 把 行 和 列 交 换 ， 就 得 到 了 一 个 新 数组 。 

NumPy 也 可 以 对 numpy .ndarray 中 的 元 素 进 行 抽象 的 读 取 、 保 存 和 其 他 操作 : 


























>>> import numpy 

>>> floats = numpy.loadtxt('floats-10M-lines.txt') © 

>>> floats[-3:] @ 

array([ 3016362.69195522, 535281.10514262, 4566560.44373946] ) 
>>> floats *= .5 © 

>>> Floats[-3:] 

array([ 1508181.34597761, 267640.55257131, 2283280.22186973]) 
>>> from time import perf_counter as pc @ 

>>> tð = pc(); floats /= 3; pc() -to 日 

@.03690556302899495 

>>> numpy.save('floats-10M', floats) © 

>>> floats2 = numpy.load('floats-1@M.npy', 'r+') @ 

>>> floats2 *= 6 

>>> floats2[-3:] © 
memmap([3616362.69195522，535281.16514262，4566566.44373946] ) 








@ 从 文本 文件 里 读 取 1000 万 个 浮 点 数 。 

O 利用 序列 切片 来 读 取 其 中 的 最 后 3 个 数 。 

© 把 数组 里 的 每 个 数 都 乘 以 0.5， 然 后 再 看 看 最 后 3 个 数 。 

O 导入 精度 和 性 能 都 比较 高 的 计时 器 (Python 3.3 及 更 新 的 版 本 中 都 有 这 个 库 ) 。 











O 把 每 个 元 素 都 除 以 3， 可 以 看 到 处 理 1000 万 个 浮 点 数 所 需 的 时 间 还 不 足 40 毫秒 。 
O 把 数组 存 入 后 缀 为 .npy 的 二 进 制 文件 。 


O 将 上 面 的 数据 导入 到 另外 一 个 数组 里 ， 这 次 load 方法 利用 了 一 种 叫 作 内 存 映射 的 机 
制 ， 它 让 我 们 在 内 存 不 足 的 情况 下 仍然 可 以 对 数组 做 切片 。 


O 把 数组 里 每 个 数 乘 以 6 之 后 ， 再 检视 一 下 数组 的 最 后 3 个 数 。 
NumPy 和 SciPy 的 安装 可 能 会 比较 费劲 。 在 “Installing the SciPy 
Stack” Chttp://www.scipy.org/install.html) 页 面 ，SciPyorg 建议 找 一 个 科学 计算 Python 
的 分 发 渠道 帮忙 ， 比 如 Anacoda, Enthought Canopy、WinPython， 等 等 。 常 见 的 


GNU/Linux 版 本 的 用 户 应 该 可 以 在 他 们 自己 的 包 管 理 系统 中 找到 NumPy 和 SciPy。 例 
如 ， 在 Debian 或 者 Ubuntu 上 面 ， 用 户 可 以 通过 下 面 的 命令 一 键 安装 : 


$ sudo apt-get install python-numpy python-scipy 


以 上 的 内 容 仅 仅 是 九 牛 一 毛 。NumPy 和 SciPy 都 是 异常 强大 的 库 ， 也 是 其 他 一 些 很 有 用 的 
工具 的 基石 。Pandas (http://pandas.pydata.org) 和 Blaze Chttp://blaze.pydata.org) 数据 分 析 
库 就 以 它们 为 基础 ， 提 供 了 高 效 的 且 外 存储 非 数 值 类 数据 的 数组 类 型 ， 和 读 写 常见 数据 文 
件 格式 (例如 csv、xls、SQL 转 储 和 HDF5)〉 的 功能 。 因 此 ， 要 详细 介绍 NumPy 和 SciPy 
的 话 ， 不 写成 几 本 书 是 不 可 能 的 。 虽然 本 书 不 在 此 列 ， 但 是 如 果 要 对 Python 的 序列 类 型 

Ht“ A AE A NumPy。 


在 介绍 完 扁平 序列 (包括 标准 数组 和 Numpy 数组 ) 之 后 ， 让 我 们 把 目光 投向 Python 中 可 
以 取代 列表 的 另外 一 种 数据 结构 : 队列 。 


2.9.4 双向 队列 和 其 他 形式 的 队列 


利用 .append 和 .pop 方法 ， 我 们 可 以 把 列表 当 作 栈 或 者 队列 来 用 〈 比 如 ， 把 .append 

和 .pop(6) 合 起 来 用 ， 就 能 模拟 栈 的 “先进 先 出 ”的 特点 ) 。 但 是 删除 列表 的 第 一 个 元 素 
(抑或 是 在 第 一 个 元 素 之 前 前 添加 一 个 元 素 ) 之 类 的 操作 是 很 耗 时 的 ， 因为 这 些 操作 会 牵扯 
到 移动 列表 里 的 所 有 元 素 。 


collections.deque 类 〔 双 向 队列 是 一 个 线程 安全 、 可 以 快速 从 两 端 添 加 或 者 删除 元 
系 的 数据 类 型 。 而 且 如 果 想 要 有 一 种 数据 类 型 来 存放 “最 近 用 到 的 几 个 元 素 "，deque 也 是 
一 个 很 好 的 选择 。 这 是 因为 在 新 建 一 个 双向 队列 的 时 候 ， 你 可 以 指定 这 个 队列 的 大 小 ， 如 
果 这 个 队列 满员 了 ， 还 可 以 从 反 辐 端 删 除 过 期 的 元 素 ， 然 后 在 尾 端 添 加 新 的 元 素 。 示 例 
2-23 中 有 几 个 双向 队列 的 典型 操作 。 


示例 2-23 ”使 用 双向 队列 























































































































>>> from collections import deque 


>>> dq = deque(range(10), maxlen=10) © 

>>> dq 

deque([@, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10) 
>>> dq.rotate(3) @ 

>>> dq 

deque([7, 8, 9, ©, 1, 2, 3, 4, 5, 6], maxlen=10@) 
>>> dq.rotate(-4) 

>>> dq 

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, ©], maxlen=10) 
>>> dq.appendleft(-1) 

>>> dq 

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10) 
>>> dq.extend([11, 22, 33]) © 

>>> dq 

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10) 
>>> dq.extendleft([10, 20, 30, 40]) 

>>> dq 

deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10) 























(1) maxlen 是 一 个 可 选 参数 ， 代 表 这 个 队列 可 以 容纳 的 元 素 的 数量 ， 而 且 一 旦 设 定 ， 这 个 
属性 就 不 能 修改 了 。 


O 队列 的 旋转 操作 接受 一 个 参数 n， 当 n > 8 时， 队列 的 最 右边 的 n 个 元 素 会 被 移动 到 
队列 的 左边 。 当 n < 8 时， 最 左边 的 nn 个 元 素 会 被 移动 到 右边 。 


O 当 试 图 对 一 个 已 满 (len(d) == d.maxlen) 的 队列 做 尾部 添加 操作 的 时 候 ， 它 头 部 
的 元 素 会 被 删除 掉 。 注 意 在 下 一 行 里 ， 元 素 8 被 删除 了 。 


O 在 尾部 添加 3 个 元 素 的 操作 会 挤 掉 -1、1 和 2。 


O extendleft(iter) 方法 会 把 迭代 器 里 的 元 素 逐 个 添加 到 双向 队列 的 左边 ， 因 此 迭代 
器 里 的 元 素 会 逆序 出 现在 队列 里 。 


表 2-3 总 结 了 列表 和 双向 队列 这 两 个 类 型 的 方法 (object 类 包含 的 方法 除外 ) 。 

双向 队列 实现 了 大 部 分 列表 所 拥有 的 方法 ， 也 有 一 些 额外 的 符合 自身 设计 的 方法 ， 比 如 说 
popleft 和 rotate。 但 是 为 了 实现 这 些 方法 ， 双 向 队列 也 付出 了 一 些 代 价 ， 从 队列 中 间 
删除 元 素 的 操作 会 慢 一 些 ， 因 为 它 只 对 在 头 尾 的 操作 进行 了 优化 。 


append 和 popleft 都 是 原子 操作 ， 也 就 说 是 deque 可 以 在 多 线程 程序 中 安全 地 当 作 先 
进 先 出 的 栈 使 用 ， 而 使 用 者 不 需要 担心 资源 锁 的 问题 。 


表 2-3: 列表 和 双向 队列 的 方法 (不 包括 由 对 象 实现 的 方法 ) 






















































































列表 | 双向 队列 











s.__add__(s2) d S + S2, t 接 














s.__iadd__(s2) Q Q s += s2， 就 地 拼接 















































































































































s.append(e) 系 加 一 个 元 素 到 最 右 侧 〈 到 最 后 一 个 元 素 之 后 ) 
s.appendleft(e) 添加 一 个 元 素 到 最 左 侧 ( 到 第 一 个 元 素 之 前 ) 
s.clear() 

s.__contains__(e) 

s.copy() 对 列表 浅 复制 

s.__copy__() 对 copy.copy (HEI) 的 支持 

s.count(e) bb 现 的 次 数 

s. delitem (p) 立 置 p 的 元 素 移 除 

s.extend(i) TARIR i 中 的 元 素 添加 到 尾部 
s.extendleft(i) J 迭代 对 象 i 中 的 元 素 添加 到 头 部 

s. getitem (p) pb ERME p 的 元 素 

s.index(e) RE 在 序列 中 第 一 次 出 现 的 位 

s.insert(p, e) 在 位 于 p 的 元 素 之 前 插入 元 素 e 







































































s. iter () 返回 迭代 器 

s.__len__() len(s)， 序 列 的 长 度 
s.__mul__(n) s * n， 重 复 拼接 

s.__imul__(n) 

s.__rmul__(n) 

s.pop() 移 除 最 后 一 个 元 素 并 返回 它 的 值 # 














-popleft() 2 移 除 第 一 个 元 素 并 返回 它 的 值 


wm 











.remove(e) 移 除 序列 里 第 一 次 出 见 的 @ 元 素 


wm 








-reverse() 调转 序列 中 元 素 的 位 置 


wm 





s._ reversed () 返回 一 个 从 尾部 开始 扫描 元 素 的 迭代 器 





























.rotate(n) 巴 n 个 元 素 从 队列 的 一 端 移 到 另 一 端 











wm 

















__setitem__(p, e) s[p] = e EMF p 位 置 的 元 素 替 换 成 e 





wm 




















.sort([key], [revers]) 就 地 排序 序列 ， 可 选 参数 有 key 和 reverse 


wm 











* 第 13 章 会 讲 反 向 运算 符 。 


























#a_list.pop(p) 这 个 操作 只 能 用 于 列表 ， 双 向 队列 的 这 个 方法 不 接收 参数 。 


除了 deque 之 外 ， 还 有 些 其 他 的 Python 标准 库 也 有 对 队列 的 实现 。 











queue 














提供 了 同步 (线程 安全 ) 类 Queue、LifoQueue 和 PriorityQueue， 不 同 的 线程 可 
以 利用 这 些 数据 类 型 来 交换 信息 。 这 三 个 类 的 构造 方法 都 有 一 个 可 选 参数 maxsize， 它 
接收 正 整 数 作 为 输入 值 ， 用 来 限定 队列 的 大 小 。 但 是 在 满员 的 时 候 ， 这 些 类 不 会 扔 掉 旧 的 


























元 素来 腾 出 位 置 。 相 反 ， 如 果 队 列 满 了 ， 它 就 会 被 锁 住 ， 直 到 男 外 的 线程 移 除 了 茶 个 元 素 


而 腾 出 了 位 置 。 这 一 特性 让 这 些 类 很 适合 用 来 控制 活跃 线程 的 数量 。 


multiprocessing 











这 个 包 实 现 了 自己 的 Queue， 它 跟 queue.Queue 类 似 ， 是 设计 给 进程 间 通 信用 的 。 























同时 还 有 一 个 专门 的 multiprocessing.JoinableQueue 类 型 ， 可 以 让 任务 管理 





E 变 得 更 











方便 。 


asyncio 

















Python 3.4 新 提供 的 包 ， 里 面 有 Queue、LifoQueue、PriorityQueue 和 


JoinableQueue， 这 些 类 受到 queue Fil multiprocessing 模块 的 影响 ， 但 是 为 异步 编 




















程 里 的 任务 管理 提供 了 专门 的 便利 。 














heapq 














跟 上 面 三 个 模块 不 同 的 是 ，heapq 没有 队列 类 ， 而 是 提供 了 heappush 和 heappop 
方法 ， 让 用 户 可 以 把 可 变 序列 当 作 推 队列 或 者 优先 队列 来 使 用 。 


到 了 这 里 ， 我 们 对 列表 之 外 的 类 的 介绍 也 就 告 一 段落 了 ， 是 时 候 阶 段 性 地 总 结 一 下 对 序列 
人 
门 介绍 。 





























2.10 ”本 章 小 结 
ee eens 对 标准 库 里 的 序列 类 型 的 掌握 是 不 可 或 缺 


























Python 序列 类 型 最 常见 的 分 类 就 是 可 变 和 不 可 变 序列 。 但 另外 一 种 分 类 方式 也 很 有 用 ， 那 
就 是 把 它们 分 为 局 平 序列 和 容器 序列 。 前 者 的 体积 更 小 、 速 度 更 快 而 且 用 起 来 更 简单 ， 但 
是 它 只 能 保存 一 些 原子 性 的 数据 ， 比 如 数字 、 字 符 和 字 节 。 容 器 序列 则 比较 灵活 ， a 
容器 序列 遇 到 可 变 对 象 时 ， 用 户 就 需要 格外 小 心 了 ， 因 为 这 种 组 合 时 常会 摘出 一 些 “ 意 

外 ”特别 是 带 岁 套 的 数据 结构 出 现时 ， 用 户 要 多 费 一 些 心思 来 保证 代码 的 正确 。 


列表 推导 和 生成 器 表达 式 则 提供 了 灵活 构建 和 初始 化 序列 的 方式 ， 这 两 个 工具 都 异常 强 
~ Peo eee 它们 ， 可 以 专门 花 时 间 练 习 一 下 。 它 们 其 实 不 难 ， 而 且 用 起 
KIEA ER. 


元 组 在 Python 里 扮演 了 两 个 角色 ， 它 既 可 以 用 作 无 名 称 的 字段 的 记录 ， 又 可 以 看 作 不 可 
变 的 列表 。 当 元 组 被 当 作 记录 来 用 的 时 候 ， 拆 包 是 最 安全 可 靠 地 从 元 组 里 提取 不 同 字段 信 
奶 的 方式 。 新 引入 的 * 句法 让 元 组 拆 包 的 便利 性 更 上 一 层 楼 ， 让 用 户 可 以 选择 性 忽略 不 
需要 的 字段 。 具 名 元 组 也 已 经 不 是 一 个 新 概念 了 ， 但 它 似乎 没有 受到 应 有 的 重视 。 就 像 普 
通 元 组 一 样 ， 具 名 元 组 的 实例 也 很 节省 空间 ， 但 它 同 时 提供 了 方便 地 通过 名 字 来 获取 元 组 
各 个 字段 信息 息 的 方式 ， 另 外 还 有 个 实用 的 . asdict() 方法 来 把 记录 变 成 OrderedDict 
类 型 。 












































































































































Python 里 最 受 欢迎 的 一 个 语言 特性 就 是 序列 切片 ， 而 且 很 多 人 其 实 还 没完 全 了 解 它 的 强大 
之 处 。 比 如 ， 用 户 自 定义 的 序列 类 型 也 可 以 选择 支持 NumPy 中 的 多 维 切片 和 省 略 
) 。 另 外 ， 对 切片 赋值 是 一 个 修改 可 变 序列 的 捷径 。 


重复 拼接 seq * n 在 正确 使 用 的 前 提 下 ， 能 让 我 们 方便 地 初始 化 含有 不 可 变 元 素 的 多 维 
列表 。 增 量 赋值 += 和 *= 会 区 别 对 待 可 变 和 不 可 变 序列 。 在 遇 到 不 可 变 序 列 时 ， 这 两 个 
操作 会 在 背后 生成 新 的 序列 。 但 如 果 被 赋值 的 对 象 是 可 变 的 ， 那 么 这 个 序列 会 就 地 修改 
一 一 然而 这 也 取决 于 序列 本 身 对 特殊 方法 的 实现 。 


序列 的 sort 方法 和 内 置 的 sorted 函数 虽然 很 灵活 ， 但 是 用 起 来 都 不 难 。 
比较 灵活 ， 是 因为 它们 都 接受 一 个 函数 作为 可 选 参数 来 指定 排序 算法 如 何 比较 大 小 ， 
参数 就 是 key SR. key 还 可 以 被 用 在 min 和 max 函数 里 。 0 
想 保持 有 序 序列 的 顺序 ， 那 么 需要 用 到 bisect.insort。bisect.bisect 的 作用 则 是 快 
速 查找 。 


除了 列表 和 元 组 ，Python 标准 库 里 还 有 array.array. Ab, BZA NumPy 和 SciPy 都 不 
a 标准 库 的 一 部 分 ， 但 稍微 学 习 一 下 它们 ， 会 让 你 在 处 理 大 规模 数值 型 数据 时 如 
神助 。 


本 章 末 尾 介 绍 了 collections.deque 这 个 类 型 ， 它 具有 灵活 多 用 和 线程 安全 的 特性 。 表 
2-3 将 它 和 列表 的 API 做 了 比较 。 本 章 最 后 也 提 及 了 一 些 标准 库 中 的 其 他 队列 类 型 的 实 
现 。 








































































































2.11 延伸 阅读 


David Beazley 和 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 的 第 1 章 “ 数 
据 结构 ”里 有 很 多 专门 针对 序列 的 小 窗 门 。 尤 其 是 “1.11 对 切片 命名 ”这 一 部 分 ， 从 中 我 学 
会 把 切片 赋值 给 变量 以 改善 可 读 性 ， 本 书 的 示例 2-11 对 此 做 了 说 明 。 


《Python Cookbook (#5 2 版 ) 中 文 版 》 用 的 是 Python 2. 4， 但 其 中 大 部 分 的 代码 都 可 以 运 
行 在 Python 3 中 。 该 书 第 5 章 和 第 6 章 的 大 部 分 内 容 都 是 跟 序 列 有 关 的 。 该 书 的 编者 有 
Alex Martelli, Anna Martelli Ravenscroft 和 David Ascher， 另 外 还 有 十 几 位 Python 程序 员 
为 内 容 做 出 了 贡献 。 第 3 版 则 是 从 零 开 始 完全 重 写 的 ， 书 的 重点 也 放 在 了 Python 的 语义 
上 ， 特 别 是 Python 3 带 来 的 那些 变化 ， 而 不 是 像 第 2 版 那样 把 重点 放 在 如 何 解决 实际 问题 
上 。 虽 然 第 2 版 中 有 些 内 容 已 经 不 是 最 优 解 了 ， 但 是 我 仍然 推荐 把 这 两 个 版 本 都 读 一 读 。 


Sle 官方 网 站 中 的 “Sorting HOW TO”— 2X Chttps://docs.python.org/3/howto/sorting.html ) 
通过 几 个 例子 讲解 了 sorted 和 list.sort 的 高 级 用 法 。 


“PEP 3132 — Extended Iterable Unpacking” (https://www.python.org/dev/peps/pep-3132/) 算 
得 上 是 使 用 *extra ARIT PTV BT. WR RR T Python 本 里 的 开发 
过 程 ，“Missing *-unpacking generalizations” (http://bugs.python.org/issue2292) 是 一 个 bug iB 
踪 器 ， 里 面 有 很 多 关于 如 何 更 广泛 地 使 用 可 迭代 对 象 拆 包 的 讨论 和 提议 。"“PEP 448 一 
Additional Generalizations” (https://www.python.org/dev/peps/pep-0448/) 就 是 这 
些 讨论 的 直接 结果 。 就 在 我 写 这 本 书 的 时 候 ， 这 些 改 动 也 许 会 被 集成 在 Python 3.5 中 。 


Eli Bendersky 的 博客 文章 “Less Copies in Python with the Buffer Protocol and 
memoryviews” Chttp://eli.thegreenplace.net/2011/11/28/less-copies-in-python-with-the-buffer- 
protocol-and-memoryviews/) 里 有 一 些 关 于 memoryview 的 小 教程 。 


市 面 上 关于 NumPy 的 书 多 到 数 不 清 ， 其 中 有 些 书 的 名 字 里 都 不 带 “NumPy" 这 几 个 字 ， 例 
如 Wes McKinney 的 《利用 Python 进行 数据 分 析 》 一 书 。 


科学 家 尤其 钟爱 NumPy 和 SciPy 的 强大 以 及 与 Python 的 交互 式 控制 台 的 结合 ， 于 是 他 们 
专门 开发 了 IPython。]IPython 是 Python 自 带 控制 台 的 强大 替代 品 ， 而 且 它 还 附带 了 图 形 界 
面 、 内 内 的 图 表演 染 、 文 学 编程 支持 《〈 代 码 和 文本 互动 ) 和 了 PDF 演 染 。 而 这 些 互 动 多 媒 
体 对 话 还 能 以 [Python 记事 本 的 形式 在 网 络 上 分 享 详 见 “IPython 记事 

本 ” (http: /lipython.org/notebook.html ) a IPython 在 2012 年 非常 流行 ， 背 后 
的 开发 者 收 到 了 一 笔 1 150 000 美元 的 捐赠 。 这 笔 来 自 Sloan 基金 的 捐赠 是 专门 用 来 支持 
好 让 他 们 外 a n 年 期 间 按 计 划 实 现 Python 的 
六 展 。 




























































































Python 标准 库 里 的 “8.3. collections 一 Container 
datatypes”(https://docs.python.org/3/library/collections.html) 里 有 一 些 关 于 双向 队列 和 其 他 
集合 类 型 的 使 用 技巧 。 


Python 里 的 范围 (range〉 和 切片 都 不 会 返回 第 二 个 下 标 所 指 的 元 素 ，Edsger W. Dijkstra 
在 一 个 很 短 的 备忘录 里 为 这 一 惯例 做 了 最 好 的 辩护 。 这 篇 名 为 “Why Numbering Should Start 








at Zero” Chttp://www.cs.utexas.edu/users/EWD/transcriptions/EWDO08xx/EWD831.html) 的 备 
忘 录 其 实 是 关于 数学 符号 的 ， 但 是 它 跟 Python 的 关系 在 于 ，Dijkstra 教授 严肃 又 活泼 地 解 
释 了 为 什么 2，3，...，12 这 个 序列 应 该 表达 为 2<i 二 13。 备 忘 录 对 其 他 所 有 的 表达 习 
惯 都 作出 了 反驳 ， 同 时 还 说 明了 为 什么 不 能 让 用 户 自行 决定 表达 习惯 。 虽 然 文章 的 标题 是 
关于 基于 0 的 下 标 ， 但 是 整 篇 文章 其 实 都 在 说 为 什么 'ABCED' [1:3] 的 结果 应 该 是 'BC' 
而 不 是 'BCD' ， 以 及 为 什么 2，3，.…，12 应 该 写作 range(2，13)。 “顺便 说 一 下 ， 这 
份 备 忘 录 是 手写 的 ， 但 是 字 写 得 干净 漂亮 。 如 果 有 人 就 此 创作 Dijkstra 字体 ， 我 应 该 会 买 


一 份 。) 
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元 组 的 本 质 


2012 年 ， 我 在 PyCon US 上 贴 了 一 张 关 于 ABC 语言 的 墙报 。Guido 在 开创 Python if 
言 之 前 曾 做 过 ABC 解释 器 方面 的 工作 ， 因 此 他 也 去 看 了 我 的 墙报 。 我 们 聊 了 不 少 ， 
而 且 都 提 到 了 ABC 里 的 compounds 类 型 。compounds 算得 上 是 Python 元 组 的 鼻 
祖 ， 它 既 支 持平 行 赋值 ， 又 可 以 用 在 字典 (dict) 里 作为 合成 键 (ABC 里 对 应 字典 
的 类 型 是 表格 ， 即 table) 。 但 compounds 不 属于 序列 ， 它 不 是 迭代 类 型 ， 也 不 能 
通过 下 标 来 提取 某 个 值 ， 更 不 用 说 切片 了 。 要 么 把 compounds 对 象 当 作 整体 来 用 ， 
要 么 用 平行 赋值 把 里 面 所 有 的 字段 都 提取 出 来 ， 仅 此 而 已 。 


我 跟 Guido 说 ， 上 面 这 些 限制 让 compounds 的 作用 变 得 很 明确 ， 它 只 能 用 作 没有 字 
段 名 的 记录 。Guido 回应 说 ，Python 里 的 元 组 能 当 作 序列 来 使 用 ， 其 实 是 一 个 取 巧 的 
实现 。 


这 其 实体 现 了 Python 的 实用 主义 ， 而 实用 主义 是 Python 较 之 ABC 更 好 用 也 更 成 功 的 
原因 。 从 一 个 语言 开发 人 员 的 角度 来 看 ， 让 元 组 具有 序列 的 特性 可 能 需要 下 点 功夫 ， 

结果 则 是 设计 出 了 一 个 概念 上 并 不 如 compounds 纯粹 ， 却 更 灵活 的 元 组 一 它 甚至 

能 当成 不 可 变 的 列表 来 使 用 。 


说 真 的 ， 不 可 变 列表 这 种 数据 类 型 在 编程 语言 里 真 的 非常 好 用 (其 实 frozenlist 这 
个 名 字 更 酷 ) ， 而 Python 里 这 种 类 型 其 实 就 是 一 个 行为 很 像 序列 的 元 组 。 


“优雅 是 简约 之 父 * 


很 入 以 前 ，*extra 这 种 语法 就 在 函数 里 用 来 把 多 个 元 素 赋 值 给 一 个 参数 了 。〔 我 有 
本 出 版 于 1996 年 的 讲 Python 1.4 的 书 ， 里 面 就 提 到 了 这 个 用 法 。) Python 1.6 或 更 新 
的 版 本 里 ， 这 个 语法 在 函数 定义 里 用 来 把 一 个 可 迭代 对 象 拆 包 成 不 同 的 参数 ， 这 算是 
跟 上 面 说 的 那 种 用 法 互补 。 这 一 设计 直观 而 优雅 ， 并 且 取 代 了 Python 里 的 apply K 

数 。 如 今 到 了 Python 3，*extra 这 个 写法 又 可 以 用 在 赋值 表达 式 的 左 侧 ， 从 而 在 平 

行 赋值 里 接收 多 余 的 元 素 。 这 一 点 让 这 个 本 来 就 很 实用 的 语法 锦上添花 。 


像 这 样 的 改进 一 个 接着 一 个 ， 让 Python 变 得 越 来 越 灵 活 ， 越 来 越 统一 ， 也 越 来 越 简 
单 。“ 优 雅 是 简约 之 父 ”(“Elegance begets simplicity”) 是 2009 年 在 芝加哥 的 PyCon 的 
口号 ， 印 在 PyCon 的 工 恤 上 ， 同 样 印 在 工 恤 上 的 还 有 Bruce Eckel 画 的 《 易 经 》 第 二 
o MEEER. BECASUE ot. HAE KA IE PyCon 的 工 






















































































扁平 序列 和 容器 序列 


为 了 解释 不 同 序列 类 型 里 不 同 的 内 存 模型 ， 我 用 了 容器 序列 和 局 平 序列 这 两 个 说 
法 。 其 中 “容器 ”一 词 来 自 “Data Model” 文 档 
Chttps://docs.python.org/3/reference/datamodel.html#objects-values-and-types) : 


有 些 对 象 里 包含 对 其 他 对 象 的 引用 ; 这 些 对 象 称 为 容器 。 


因此 ， 我 特别 使 用 了 “容器 序列 ”这 个 词 ， 因 为 Python 里 有 是 容器 但 并 非 序列 的 类 
型 ， 比 如 dict 和 set。 容 器 序列 可 以 嵌 套 着 使 用 ， 因 为 容器 里 的 引用 可 以 针对 包括 
自身 类 型 在 内 的 任何 类 型 。 


与 此 相反 ， 遍 平 序列 因为 只 能 包含 原子 数据 类 型 ， 比 如 整数 、 浮 点 数 或 字符 ， 所 以 
ABE REE A 


称 其 为 “局 平 序列 "是 因为 我 希望 有 个 名 词 能 够 跟 “ 容 器 序列 ”形成 对 比 。 这 个 词 是 我 自 
己 发 明 的 ， 专 门 用 来 指 代 Python 中 “不 是 容器 序列 ”的 序列 ， 在 其 他 地 方 你 可 能 找 不 
到 这 样 的 用 法 。 如 果 这 个 词 出 现在 维基 百科 上 面 的 话 ， 我 们 需要 给 它 加 上 “原创 研 
完 ” 标 签 。 我 更 倾向 于 把 这 类 词 称 作 “ 自 创 名 词 ”， 和 希望 它 能 对 你 有 所 帮助 并 为 你 所 
用 。 


混合 类 型 列表 


Python 入 门 教 材 往往 会 强调 列表 是 可 以 同时 容纳 不 同类 型 的 元 素 的 ， 但 是 实际 上 这 样 
做 并 没有 什么 特别 的 好 处 。 我 们 之 所 以 用 列表 来 存放 东西 ， 是 期 符 在 稍 后 使 用 它 的 时 
候 ， 其 中 的 元 素 有 一 些 通用 的 特性 〈 比 如 ， 列 表 里 存 的 是 一 类 可 以 “ 啤 啤 ? 叫 的 动物 ， 
那么 所 有 的 元 素 都 应 该 会 发 出 这 种 叫 声 ， 即 便 其 中 一 部 分 元 素 类 型 并 不 是 鸭子 ) 。 在 
Python 3 中 ， 如 果 列 表 里 的 东西 不 能 比较 大 小 ， 那 么 我 们 就 不 能 对 列表 进行 排序 : 






























































>>> 1 = [28, 14, '28', 5, '9', '1', ©, 6, '23', 19] 
>>> sorted(1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unorderable types: str() < int() 








元 组 则 恰恰 相反 ， 它 经 常用 来 存放 不 同类 型 的 的 元 素 。 这 也 符合 它 的 本 质 ， 元 组 就 是 
用 作 存 放 彼此 之 间 没 有 关系 的 数据 的 记录 。 


key 参数 很 妙 


list.sort、sorted、max 和 min 函数 的 key 参数 是 一 个 很 棒 的 设计 。 其 他 语言 里 
的 排序 函数 需要 用 户 提供 一 个 接收 两 个 参数 的 比较 函数 作为 参数 ， 像 是 Python 2 里 的 
cmp(a，b)。 用 key 参数 能 把 事情 变 得 简单 且 高 效 。 说 它 更 简单 ， 是 因为 只 需要 提 
一 个 单 参数 函数 来 提取 或 者 计算 一 个 值 作为 比较 大 小 的 标准 即 可 ， 而 Python 2 的 这 
中 设计 则 需要 用 户 写 一 个 返回 值 是 一 1、0 或 者 1 的 双 参 数 函 数 。 说 它 更 高 效 ， 是 因 
为 在 每 个 元 素 上 ，key 函数 只 会 被 调用 一 次 。 而 双 参 数 比较 函数 则 在 每 一 次 两 两 比较 
的 时 候 都 会 被 调 有 用。 诚然， 在 排序 的 时 候 ，Python 总 会 比较 两 个 键 (key) ， 但 是 那 





















































a eee C 语言 那 一 层 ， 这 样 会 比 调用 用 户 自 定义 的 Python 比较 函数 
更 快 。 





男 外 ，key 参数 也 能 让 你 对 一 个 混 有 数字 字符 和 数值 的 列表 进行 排序 。 你 只 需要 决定 





到 底 是 把 字符 看 作 数 值 ， 还 是 把 数值 看 作 字 符 : 














>>> 1 = [28, 14, '28', 5, '9', '1', ©, 6, '23', 19] 
>>> sorted(1, key=int) 

[@, '1', 5, 6, '9', 14, 19, '23', 28, '28'] 

>>> sorted(1, key=str) 

[Ə, '1', 14, 19, '23', 28, '28', 5, 6, '9'] 








Oracle. Google 和 Timbot 之 间 的 八卦 





sorted 和 list.sort 背后 的 排序 算法 是 Timsort， 它 是 一 种 自 适应 算法 ， 会 根据 原 


始 数 据 的 顺序 特点 交 蔡 使 用 插入 排序 和 归并 排序 














子 ， 以 达到 最 佳 效率 。 这 样 的 算法 被 证 











明 是 很 有 效 的 ， 因 为 来 自 真 实 世界 的 数据 通常 是 
一 个 条 目 是 关于 这 个 算法 的 Chttps://en.wikipedia. 

















一 定 的 顺序 特点 的 。 维 基 百 科 上 有 
org/wiki/Timsort) 。 


Timsort 在 2002 年 的 时 候 首 次 用 在 CPython 中 ; 自 2009 年 起 ，Java 和 Android 也 开始 





使 用 这 个 算法 。 后 面 这 个 时 间 点 如 此 广为人知 ， 


是 因为 在 Google 对 Sun 的 侵权 案 











H, Oracle 把 Timsort 中 的 一 些 相 关 代码 当 作 了 旦 党 证 供 。 详 见 “ Oracle v. Google— 
Day 14 Filings” 一 文 (http:/www.groklaw.netarticlebasic.php? 


story=20120510205659643) 。 








Timsort 的 创始 人 是 TimPeters， 他 同时 也 是 一 位 高 产 的 Python 核心 开发 者 。 由 于 他 贡 





献 了 太 多 代码 ， 以 至 于 很 多 人 都 说 他 其 实 是 人 工 


智能 ， 他 也 就 有 了 “Timbot* 这 一 绰 





号 。 在 “Python Humor” Chttps://www.python.org/doc/humor/#id9) 里 可 以 读 到 相关 的 故 
事 。Tim 也 是 “Python 之 禅 ” (import this) 的 作者 。 


第 3 半 字典 和 集合 


字典 这 个 数据 结构 活跃 在 所 有 Python 程序 的 背后 ， 即 便 你 的 源码 里 并 没有 直接 用 到 
它 。 

















A. M. Kuchling 

《代码 之 美 》 第 18 章 “Python 的 字典 类 : 如 何 打造 全 能 战士 ” 
dict 类 型 不 但 在 各 种 程序 里 广泛 使 用 ， 它 也 是 Python 语言 的 基石 。 模 块 的 命名 空间 、 实 
例 的 属性 和 函数 的 关键 字 参 数 中 都 可 以 看 到 字典 的 身影 。 跟 它 有 关 的 内 置 函 数 都 在 
builtins . dict 模块 中 。 


正 是 因为 字典 至 关 重 要 ，Python 对 它 的 实现 做 了 高 度 优化 ， 而 散 列表 则 是 字典 类 型 性 能 
出 众 的 根本 原因 。 


RE Cet) 的 实现 其 实 也 依赖 于 散 列 表 ， 因 此 本 章 也 会 讲 到 它 。 反 过 来 说 ， 想 要 进一步 
理解 集合 和 字典 ， 就 得 先 理解 散 列 表 的 原理 。 


本 章 内 容 的 大 纲 如 下 : 
。 常见 的 字典 方法 
。 如 何 处 理 查 找 不 到 的 键 
。 标 准 库 中 dict 类 型 的 变种 
。 set 和 frozenset 类 型 

散 列表 的 工作 原理 

散 列 表 带 来 的 潜在 影响 “什么 样 的 数据 类 型 可 作为 刍 、 不 可 预知 的 顺序 ， 等 等 ) 












































































































































3.1 泛 映 射 类 型 


collections.abc 模块 中 有 Mapping 和 MutableMapping 这 两 个 抽象 基 类 ， 它 们 的 作 
用 是 为 dict 和 其 他 类 似 的 类 型 定义 形式 接口 〈 在 Python 2.6 到 Python 3.2 的 版 本 中 ， 这 些 
类 还 不 属于 collections.abc 模块 ， 而 是 隶属 于 collections 模块 ) 。 详 见 图 3-1- 
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3-1: collections.abc 中 的 MutableMapping 和 它 的 超 类 的 UML 类 图 〈 箭 头 从 子 
类 指向 超 类 ， 抽 象 类 和 抽象 方法 的 名 称 以 斜体 显示 ) 


然而 ， 非 抽象 映射 类 型 一 般 不 会 直接 继承 这 些 抽象 基 类 ， 它 们 会 直接 对 dict 或 是 
collections.User.Dict 进行 扩展 。 这 些 抽象 基 类 的 主要 作用 是 作为 形式 化 的 文档 ，， 
们 定义 了 构建 一 个 映射 类 型 所 需要 的 最 基本 的 接口 。 然 后 它们 还 可 以 跟 isinstance 
被 用 来 判定 某 个 数据 是 不 是 广义 上 的 映射 类 型 : 
































>>> my_dict = {} 
>>> isinstance(my_dict, abc.Mapping) 
True 








这 里 用 isinstance 而 个 是 type 来 检查 某 个 参数 是 否 为 dict 类 型 ， 因 为 这 个 参数 有 可 
能 不 是 dict， 而 是 一 个 比较 另类 的 映射 类 型 。 


标准 库 里 的 所 有 映射 类 型 都 是 利用 dict 来 实现 的 ， 因 此 它们 有 个 共同 的 限制 ， 即 只 有 可 
oe ene 《只 有 键 有 这 个 要 求 ， 值 并 不 需要 是 可 散 列 的 
数据 类 型 )。 


什么 是 可 散 列 的 数据 类 型 


在 Python 词汇 表 Chttps://docs.python.org/3/glossary.html#term-hashable) 中 ， 关 于 可 散 
列 类 型 的 定义 有 这 样 一 段 话 : 


如 果 一 个 对 象 是 可 散 列 的 ， 那 么 在 这 个 对 象 的 生命 周期 中 ， 它 的 散 列 值 是 不 变 
的 ， 而 且 这 个 对 象 需要 实现 hash __() 方 法。 另外 可 散 列 对 象 还 要 有 
qe _() 方法 ， 这 样 才能 跟 其 他 键 做 比较 。 如 果 两 个 可 散 列 对 象 是 相等 的 ， 那 




































































么 它们 的 散 列 值 一 定 是 一 样 的 .……… 


原子 不 可 变数 据 类 型 (str、bytes 和 数值 类 型 ) 都 是 可 散 列 类 型 ，frozenset 也 是 
可 散 列 的 ， 因 为 根据 其 定义 ，frozenset 里 只 能 容纳 可 散 列 类 型 。 元 组 的 话 ， 只 有 
当 一 个 元 组 包含 的 所 有 元 素 都 是 可 散 列 类 型 的 情况 下 ， 它 才 是 可 散 列 的 。 来 看 下 面 的 
元 组 tt、t1 和 tf: 

















>>> tt = (1, 2, (30, 40)) 

>>> hash(tt) 

8027212646858338501 

>>> tl = (1, 2, [30, 40]) 

>>> hash(t1) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: unhashable type: ‘list’ 

>>> tf = (1, 2, frozenset([30, 40])) 

>>> hash(tf) 

-4118419923444501110 











Bey 直到 我 写 这 本 书 的 时 候 ，Python 词汇 表 
(https://docs.python.org/3/glossary.html#term-hashable) 里 还 在 说 “Python 里 所 有 的 不 可 
变 类 型 都 是 可 散 列 的 ”。 这 个 说 法 其 实 是 不 准确 的 ， 比 如 虽然 元 组 本 身 是 不 可 变 序 
列 ， 它 里 面 的 元 素 可 能 是 其 他 可 变 类 型 的 引用 。 


一 般 来 讲 用 户 自 定义 的 类 型 的 对 象 都 是 可 散 列 的 ， 散 列 值 就 是 它们 的 id( ) 函数 的 返 
回 值 ， 所 以 所 有 这 些 对 象 在 比较 的 时 候 都 是 不 相等 的 。 如 果 一 个 对 象 实 现 了 __eq__ 
方法 ， 并 且 在 方法 中 用 到 了 这 个 对 象 的 内 部 状态 的 话 ， 那 么 只 有 当 所 有 这 些 内 部 状态 
都 是 不 可 变 的 情况 下 ， 这 个 对 象 才 是 可 散 列 的 。 


根据 这 些 定 义 ， 字 典 提供 了 很 多 种 构造 方法 ，“Built-in 
Types” (https://docs.python.org/3/library/stdtypes.html#mapping-types-dict〉 这 个 页 面 上 有 个 
例子 来 说 明 创建 字典 的 不 同方 式 : 

































































dict(one=1, two=2, three=3) 

{'one': 1, 'two': 2, 'three': 3} 
dict(zip(['one', ‘'two', ‘'three'], [1, 2, 3])) 
dict([('two', 2), (‘one', 1), (‘three', 3)]) 
dict({'three': 3, 'one': 1, ‘two': 2}) 

= Db EEC == d == € 


>>> a 
>>> b 
>>> C 
>>> d 
>>> e 
>>> a 
True 




















除了 这 些 字面 句法 和 灵活 的 构造 方法 之 外 ， 字 典 推导 (dict comprehension) 也 可 以 用 来 建 
造 新 dict， 详 见 下 一 节 。 





3.2 字典 推导 


H Python 2.7 以 来 ， 列 表 推 导 和 生成 器 表达 式 的 概念 就 移植 到 了 字典 上 ， 从 而 有 了 字典 推 
导 【 后 面 还 会 看 到 集合 推导 ) 。 字 典 推导 Cdictcomp) 可 以 从 任何 以 键 值 对 作为 元 素 的 可 
Se oe ea ee A een ee 
两 个 不 同 的 字典 。 


示例 3-1 字典 推导 的 应 用 


























>>> DIAL_CODES = [ o 
bax (86, 'China'), 
(91, 'India'), 
(1, 'United States'), 
(62, 'Indonesia'), 
(55, 'Brazil'), 
(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 
(7, 'Russia'), 
(81, 'Japan'), 


>>> country_code = {country: code for code, country in DIAL_CODES} @ 

>>> country_code 

{'China': 86, 'India': 91, 'Bangladesh': 880, 'United States': 1, 

'Pakistan': 92, 'Japan': 81, 'Russia': 7, 'Brazil': 55, 'Nigeria': 

234, 'Indonesia': 62} 

>>> {code: country.upper() for country, code in country_code.items() © 
if code < 66} 

{1: 'UNITED STATES', 55: 'BRAZIL', 62: 'INDONESIA', 7: 'RUSSIA'} 











@ 一 个 承载 成 对 数据 的 列表 ， 它 可 以 直接 用 在 字典 的 构造 方法 中 。 
四 这 里 把 配 好 对 的 数据 左右 换 了 下 ， 国 家 名 是 键 ， 区 域 码 是 值 。 


OSEM, HEROE, MARERA, HEEROMA TRET 
66 的 地 区 。 


如 果 列 表 推 导 的 概念 已 经 为 你 所 熟知 ， 接 受 字典 推导 应 该 不 难 。 如 果 你 对 列表 推导 还 不 
熟 ， 那 么 是 时 候 来 掌握 它 了 ， 因 为 字典 推导 的 表达 形式 会 芝 延 到 其 他 数据 类 型 中 。 


下 面 来 看 看 映射 类 型 提供 的 API 的 全 景 图 。 


















































3.3 HH ILAJ RITA A 


映射 类 型 的 方法 其 实 很 丰富 。 表 3-1 为 我 们 展示 了 dict, defaultdict #4 OrderedDict 
的 常见 方法 ， 后 面 两 个 数据 类 型 是 dict 的 变种 ， 位 于 collections 模块 内 。 


表 3-1: dict、collections.defaultdict 和 collections.OrderedDict 这 三 种 映射 
类 型 的 方法 列表 (依然 省 略 了 继承 自 object 的 常见 方法 ) ;可 选 参数 以 [. ..] 表 示 


dict | defaultdict | Ordere dDict 
.clear() s e : 移 除 所 有 元 素 


-__contains__(k) 
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a 





























d.copy() 
d.__copy__() 用 于 支持 copy. copy 

在 _missing _ 函数 中 被 调用 的 函数 ， 用 以 给 未 找到 的 
d.default_factory aie gig pee 

元 素 设 置 值 


























a 


.__delitem_ (k) 。 del d[k]， 移 除 键 为 k 的 元 素 




















将 迭代 器 it 里 的 元 素 设 置 为 映射 里 的 键 ， 如 果 有 


人 . initial 参数 ， 就 把 它 作 为 这 些 键 对 应 的 值 RNE 






































None ) 





























d.get(k, ; 返回 键 k 对 应 的 值 ， 如 果 字 典 里 没有 键 k， 则 返 
[default]) 或 者 default 















































d. getitem (k) 。 让 字典 d 能 用 d[k] 的 形式 返回 键 k 对 应 的 值 


























d.items() 。 返回 d 里 所 有 的 键 值 对 

















d. iter () 。 取 键 的 迭代 器 














d.keys() 。 。 G 获取 所 有 的 键 





























d.__len__() 。 Je 。 可 以 用 len(a) 的 形式 得 到 字典 里 键 值 对 的 数量 








ul 




















__getitem _ 找 不 到 对 应 键 的 时 候 ， 这 个 方法 会 被 调 





Wz 
d.__ missing (k) ° 用 




















d.move_to_end(k, 7 巴 键 为 k 的 元 素 移动 到 最 靠 前 或 者 最 靠 后 的 位 置 Cast 
[last]) 的 默认 值 是 True ) 














返回 键 k 所 对 应 的 值 ， 然 后 移 除 这 个 键 值 对 。 如 果 没 
有 这 个 键 ， 返回 None 或 者 defaul 














d.pop(k, [defaul] 





























d.popitem() s 汀 机 返回 键 值 对 并 从 字 

















d.__reversed_() 。 F AY Bee IS Ra 


























N 若 字 典 里 有 键 k， 则 把 它 对 应 的 值 设置 为 default， 然 
ht 后 返回 这 个 值 ， 若 无 ， 则 让 atk] = default， 然 后 返回 
default 
























































eee hes ; 实现 4[k] = v 操作 ， 把 k 对 应 的 值 设 为 v 
d.update(m, m RY DARE BA BR a ECE, FD 对 应 的 
[**kargs]) 条 















































d.values() e 返回 字 LA ATA 















































* default_factory 并 不 是 一 个 方法 ， 而 是 一 个 可 调用 对 象 (calable) ， 它 的 值 在 defaultdict 初始 化 的 时 候 由 用 户 
SJL es 


WOKE o 



















































































# OrderedDict.popitem() 会 移 除 字典 里 最 先 插入 的 元 素 〈 先 进 先 出 ) ;同时 这 个 方法 还 有 一 个 可 选 的 last BR, Æ 


为 真 ， 则 会 移 除 最 后 插入 的 元 素 〈 后 进 先 出 ) 。 


上 面 的 表格 中 ，update 方法 处 理 参数 m 的 方式 ， 是 典型 的 “鸭子 类 型 ”。 函 数 首先 检查 m 
是 否 有 keys Jk, WRA, MA update 函数 就 把 它 当 作 映 射 对 象 来 处 理 。 和 否则， 函数 
会 退 一 步 ， 转 而 把 m 当 作 包含 了 键 值 对 (key, value) 元 素 的 迭代 器 。Python 里 大 多 数 
映射 类 型 的 构造 方法 都 采用 了 类 似 的 逻辑 ， 因 此 你 既 可 以 用 一 个 映射 对 象 来 新 建 一 个 映射 
对 象 ， 也 可 以 用 包含 (key, value) 元 素 的 可 迭代 对 象 来 初始 化 一 个 映射 对 象 。 


在 映射 对 象 的 方法 里 ，setdefault 可 能 是 比较 微妙 的 一 个 。 我 们 虽然 并 不 会 每 次 都 用 
它 ， 但 是 一 旦 它 发 挥 作用 ， 就 可 以 节省 不 少 次 键 查询 ， 从 而 让 程序 更 高 效 。 如 果 你 对 它 还 
不 熟悉 ， 下 面 我 会 通过 一 个 实例 来 讲解 它 的 用 法 。 


a 






















































































用 setdefault 处 理 找 不 到 的 键 


当 字 典 d[k] 不 能 找到 正确 的 键 的 时 候 ，Python 会 抛 出 异常 ， 这 个 行为 符合 Python 所 信奉 
nn reer ent Rata default) 来 代替 
d[k]， 给 找 不 到 的 键 一 个 默认 的 返回 值 〈 这 比 处 理 KeyError 要 方便 不 少 ) 。 但 是 要 更 
新 某 个 键 对 应 的 值 的 时 候 ， 不 管 使 用 ”getitem _ 还 是 get 都 会 不 自然 ， 而 且 效 率 低 。 
就 像 示 例 3-2 中 的 还 没有 经 过 优化 的 代码 所 显示 的 那样 ，dict. get 并 不 是 处 理 找 不 到 的 
键 的 最 好 方法 。 


示例 3-2 是 由 Alex Martelli 举 的 一 个 例子 1 变化 而 来 ， 例 子 生成 的 索引 跟 示例 3-3 显示 的 




























































































Fo 








1 示例 代码 出 现在 Martelli 的 演讲 “Re-learning python” H ($E 41 张 幻灯 
片 ，http//www.aleax.i/Python/accu04_Relearn_ Python alex.pdf) ， 他 的 代码 被 我 放 在 了 示例 3-4 中 ， 代 码 很 好 地 展示 了 
dict.setdefault 的 用 法 。 






































示例 3-2 index@.py 这 段 程序 从 索引 中 获取 单词 出 现 的 频率 信息 ， 并 把 它们 写 进 对 
应 的 列表 里 《更 好 的 解决 方案 在 示例 3-4 中 ) 











”创建 一 个 从 单词 到 其 出 现 情况 的 映射 """ 





import sys 
import re 


WORD_RE = re.compile(r' \w+' ) 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match. group() 
column_no = match.start()+1 
location = (line_no, column_no) 
# 这 其 实 是 一 种 很 不 好 的 实现 ， 这 样 写 只 是 为 了 证 明 论点 
occurrences = index.get(word, []) © 






































occurrences.append(1location) ð 
index[word] = occurrences © 
# 以 字母 顺序 打印 出 结果 

for word in sorted(index, key=str.upper): (4) 


print(word, index[word] ) 











Q 提取 word 出 现 的 情况 ， 如 果 还 没有 它 的 记录 ， 返 回 []. 
四 把 单词 新 出 现 的 位 置 添加 到 列表 的 后 面 。 
O 把 新 的 列表 放 回 字典 中 ， 这 又 牵扯 到 一 次 查询 操作 。 


@ sorted 函数 的 key= 参数 没有 调用 str .uppper， 而 是 把 这 个 方法 的 引用 传递 给 
sorted 函数 ， 这 样 在 排序 的 时 候 ， 单 词 会 被 规范 成 统一 格式 。? 









































?这 是 将 方法 用 作 一 等 函数 的 一 个 示例 ， 第 5 章 会 谈 到 这 一 点 。 











示例 3-3 这 里 是 示例 3-2 的 不 完全 输出 ， 每 一 行 的 列表 都 代表 一 个 单词 的 出 现 情 
况 ， 列 表 中 的 元 素 是 一 对 值 ， 第 一 个 值 表示 出 现 的 行 ， 第 二 个 表示 出 现 的 列 





$ python3 index6.py ../../data/zen.txt 
a [(19, 48), (20, 53)] 

Although [(11, 1), (16, 1), (18, 1)] 
ambiguity [(14, 16)] 

and [(15, 23)] 

are [(21, 12)] 

aren [(10, 15)] 

at [(16, 38)] 

bad [(19, 50)] 

be [(15, 14), (16, 27), (20, 5@)] 
beats [(11, 23)] 

Beautiful [(3, 1)] 

better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), 
(17, 8), (18, 25)] 

















示例 3-2 里 处 理 单 词 出 现 情况 的 三 行 ， 通 过 dict.setdefault 可 以 只 用 











3-4 更 接近 Alex Martelli 自己 举 的 例子 。 


Si 


7J 








paii 


Ee 示例 


示例 3-4 index.py 用 一 行 就 解决 了 获取 和 更 新 单词 的 出 现 情况 列表 ， 当 然 跟 示 例 3-2 





不 一 样 的 是 ， 这 里 用 到 了 dict.setdefault 











"创建 从 一 个 单词 到 其 出 现 情况 的 映射 """ 











import sys 
import re 


WORD_RE = re.compile(r' \w+') 


index = {} 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match. group() 
column_no = match.start()+1 
location = (line_no, column_no) 
index.setdefault(word, []).append(location) @ 


# 以 字母 顺序 打印 出 结果 
for word in sorted(index, key=str.upper): 
print(word, index[word]) 








@ 获取 单词 的 出 现 情况 列表 ， 如 果 单 词 不 存在 ， 把 单词 和 一 个 空 列表 放 进 映射 ， 








回 这 个 空 列表 ， 这 样 就 能 在 不 进行 第 二 次 查找 的 情况 下 更 新 列表 了 。 
也 就 是 说 ， 这 样 写 : 








然后 返 








my_dict.setdefault(key, []).append(new_value) 


跟 这 样 写 ; 





if key not in my _ dict: 
my_dict[key] = [] 


my_dict[key].append(new_value) 














二 者 的 效果 是 一 样 的 ， 只 不 过 后 者 至 少 要 进行 两 次 键 查 询 一 一 如 果 键 不 存在 的 话 ， 就 是 三 
次 ， 用 setdefault 只 需要 一 次 就 可 以 完成 整个 操作 。 

那么 ， 在 单纯 地 查找 取 值 〈 而 不 是 通过 查找 来 插入 新 值 ) 的 时 候 ， 该 怎么 处 理 找 不 到 的 键 
We? 






































3.4 RST EY SHE BE A 


有 时 候 为 了 方便 起 见 ， 就 算 某 个 键 在 映射 里 不 存在 ， 我 们 也 希望 在 通过 这 个 键 读 取 值 的 时 
候 能 得 到 一 个 默认 值 。 有 两 个 me 能 帮 有 我 们 达到 这 个 目的 ， 一 个 是 通过 defaultdict 这 
个 类 型 而 不 是 普通 的 dict， 男 一 个 是 给 自己 定义 一 个 dict 的 子 类 ， 然后 在 子 类 中 实现 

_ missing _ 方 法。 下 面 将 介 ae ae 


3.4.1 defaultdict: 处 理 找 不 到 的 键 的 一 个 选择 


示例 3-5 在 collections.defaultdict 的 帮助 下 优雅 地 解决 了 示例 3-4 里 的 问题 。 在 用 
户 创建 defaultdict 对 象 的 时 候 ， 就 需要 给 它 配 置 一 个 为 找 不 到 的 键 创 造 默认 值 的 方 


法 o 




























































































具体 而 言 ， 在 实例 化 一 个 defaultdict 的 时 候 ， 需 要 给 构造 方法 提供 一 个 可 调用 对 象 ， 
这 个 可 调用 对 象 会 在 ” getitem _ 人 到 找 不 到 的 键 的 时 候 被 调用 ， 让  getitem__ ik 
回 某 种 默认 值 。 


比如 ， 我 们 新 建 了 这 样 一 个 字典 : dd = defaultdict(1ist)， 如 果 键 'new-key' 在 dd 
中 还 不 存在 的 话 ， 表 达 式 dd[ 'new-key'] 会 按照 以 下 的 步骤 来 行事 。 


(1) 调用 1ist() 来 建立 一 个 新 列表 。 

(2) 把 这 个 新 列表 作为 值 ，' new-key' 作为 它 的 键 ， 放 到 dd 中 。 

(3) 返回 这 个 列表 的 引用 。 

而 这 个 用 来 生成 默认 值 的 可 调用 对 象 存放 在 名 为 default_factory 的 实例 属性 里 。 


示例 3-5 index defaultpy: 利用 defaultdict 实例 而 不 是 setdefault 方法 









































"创建 一 个 从 单词 到 其 出 现 情况 的 映射 ""'" 











import sys 
import re 
import collections 


WORD_RE = re.compile(r' \w+' ) 


index = collections.defaultdict(list) 1) 
with open(sys.argv[1], encoding='utf-8') as fp: 
for line_no, line in enumerate(fp, 1): 
for match in WORD_RE.finditer(line): 

word = match. group() 

column_no = match.start()+1 
location = (line_no, column_no) 
index[word].append(location) © 


# 以 字母 顺序 打印 出 结果 








for word in sorted(index, key=str.upper) : 
print(word, index[word]) 








@ list 构造 方法 作为 default_factory 来 创建 一 个 defaultdict。 


O 如 果 index 并 没有 word 的 记录 ， 那 么 default_factory 会 被 调用 ， 为 查询 不 到 的 键 
创造 一 个 值 。 这 个 值 在 这 里 是 一 个 空 的 列表 ， 然 后 这 个 空 列表 被 赋值 给 index[word], 
继而 被 当 作 返回 值 返回 ， 因 此 .append(location) 操作 总 能 成 功 。 


如 果 在 创建 defaultdict 的 时 候 没 有 指定 default_factory， 查 询 不 存在 的 键 会 触发 


KeyError. 























Be defaultdict 里 的 default_factory R27 __getitem_ 里 被 调用 ， 在 
其 他 的 方法 里 完全 不 会 发 挥 作用 。 比 如 ，dd 是 个 defaultdict, k 是 个 找 不 到 的 
键 ，dd[k] 这 个 表达 式 会 调用 default_factory 创造 某 个 默认 值 ， 而 dd. get(k) 
则 会 返回 None。 


所 有 这 一 切 背 后 的 功臣 其 实 是 特殊 方法 _missing 。 它 会 在 defaultdict 遇 到 找 不 到 
的 键 的 时 候 调用 default_factory， 而 实际 上 这 个 特性 是 所 有 映射 类 型 都 可 以 选择 去 支 
持 的 。 


























3.4.2 ”特殊 方法 _ missing__ 


所 有 的 映射 类 型 在 处 理 找 不 到 的 键 的 时 候 ， 都 会 窑 扯 到 __missing_ 方法 。 这 也 是 这 个 
方法 称 作 “missing”* 的 原因 。 虽 然 基 类 dict 并 没有 定义 这 个 方法 ， 但 是 dict 是 知道 有 这 
么 个 东西 存在 的 。 也 就 是 说 ， 如 果 有 一 个 类 继承 了 dict， 然 后 这 个 继承 类 提供 了 

_ missing _ 方 法， 那么 在 ”getitem _ 磁 到 找 不 到 的 键 的 时 候 ，Python 就 会 自动 调用 
它 ， 而 不 是 抛 出 一 个 KeyError 异常 。 



















































































Be __missing _ 方法 只 会 被 ”getitem _ 调用 (比如 在 表达 式 d[k] 中 ) 。 
Heft missing ”方法 对 get 或 者 _contains (in 运算 符 会 用 到 这 个 方法 ) 这 
些 方法 的 使 用 没有 影响 。 这 也 是 我 在 上 一 节 最 后 的 警告 中 提 到 ，defaultdict 中 的 
default_factory 只 对 getitem 有 作用 的 原因 。 


有 时 候 ， 你 会 希望 在 查询 的 时 候 ， 映 射 类 型 里 的 键 统 统 转换 成 str。 为 可 编程 电路 板 ( 像 
Raspberry Pi 或 Arduino?) 准备 的 Pingo.io (http://www.pingo.io/docs/) 项目 里 就 有 具体 的 

例子 。 在 Pingo.io 里 ， 电 路 板 上 的 GPIO 针脚 “以 board.pins 为 名 ， 封 装 在 名 为 board 

的 对 象 里 。board.pins 是 一 个 映射 类 型 ， 其 中 键 是 针脚 的 物理 位 置 ， 它 可 能 只 是 一 个 数 
FFE, bkin "ao" 或 "P9_12"; 值 则 是 针脚 连接 的 东西 。 为 了 保持 一 致 性 ， 我 们 希 
望 board.pins 的 键 只 能 是 字符 串 ， 但 是 为 了 方便 查询 ，my_arduino.pins[13] 也 是 可 
行 的 ， 这 样 可 以 帮 Arduino 的 初级 玩家 快速 找到 第 13 个 针脚 上 的 LED 灯 。 示 例 3-6 展示 

了 这 样 的 一 个 映射 是 怎么 运行 的 。 






























































3Raspberry Pi 是 一 个 集成 到 巴掌 大 小 的 板子 上 的 电脑 。Arduino 则 是 一 种 可 以 在 烧 录 程序 的 同时 ， 连 接 上 各 种 传感器 ， 
用 以 跟 物 理 世 界 交 互 的 电路 板 。 更 多 的 相关 信息 可 以 在 https://www.raspberrypi.org/ 和 https:/www.arduino.cc/ 上 找到 。 
一 一 译 者 注 










































































4 通用 输入 输出 针脚 ， 用 来 跟 传感器 或 其 他 设备 用 数据 互动 。 一 一 译 者 注 


E 


示例 3-6 ” 当 有 非 字 符 串 的 键 被 查找 的 时 候 ，StrKeyDict8 是 如 何在 该 键 不 存在 的 
况 下 ， 把 它 转换 为 字符 串 的 








过 














Tests for item retrieval using ‘d[key] notation:: 


>>> d = StrkeyDict@([('2', ‘two'), ('4', ‘four')]) 
>>> d['2'] 

"七 NO 

>>> d[4] 

‘four’ 

>>> d[1] 

Traceback (most recent call last): 


KeyError: '1' 
Tests for item retrieval using `d.get(key)` notation:: 


>>> d.get('2') 
"two' 

>>> d.get(4) 

'four ' 

>>> d.get(1, 'N/A') 
'N/A' 


Tests for the “in operator:: 


>>> 2 ind 
True 

>>> 1 ind 
False 








示例 3-7 则 实现 了 上 面 例子 里 的 StrKeyDicte 类 。 





` 如 果 要 自 定义 一 个 映射 类 型 ， 更 合适 的 策略 其 实 是 继承 
collections.UserDict 类 (示例 3-8 就 是 如 此 ) 。 这 里 我 们 从 dict 继承 ， 只 是 为 
了 演示 __ missing 是 如 何 被 dict.__getitem_ 调用 的 。 


示例 3-7 StrKeyDicte 在 查询 的 时 候 把 非 字 符 串 的 键 转换 为 字符 串 











class StrKeyDicte(dict): © 


def _ missing (self, key): 
if isinstance(key, str): @ 
raise KeyError(key) 
return self[str(key)] © 





def get(self, key, default=None): 
try: 
return self[key] @ 
except KeyError: 
return default © 


def _ contains (self, key): 
return key in self.keys() or str(key) in self.keys() © 








@ strkeyDicte 继承 了 dict. 
O 如 果 找 不 到 的 键 本 身 就 是 字符 串 ， 那 就 抛 出 KeyError 异 
O 如 果 找 不 到 的 键 不 是 字符 串 ， 那 么 把 它 转换 成 字符 串 再 进行 查找 。 


O get 方法 把 查找 工作 用 self[key] 的 形式 委托 给 __getitem ， 这 样 在 宣布 查找 失败 
之 前 ， 还 能 通过 ”missing _ 再 给 某 个 键 一 个 机 会 。 


© 如 果 抛 出 KeyError， 那 么 说 明 missing _ 也 失败 了 ， 于 是 返回 default. 


O 先 按照 传 入 键 的 原本 的 值 来 查找 〈 我 们 的 映射 类 型 中 可 能 含有 非 字符 串 的 键 》， 如 果 
没 找到 ， 再 用 str() 方法 把 键 转换 成 字符 串 再 查找 一 次 。 


下 面 来 看 看 为 什么 isinstance(key, str) 测试 在 上 面 的 _ missing _ 中 是 必需 的 。 


如 果 没 有 这 个 测试 ， 只 要 str(k) 返回 的 是 一 个 存在 的 键 ， 那 么 ”missing _ 方法 是 没 
问题 的 ， 不 管 是 字符 串 键 还 是 非 字 符 串 键 ， 它 都 能 正常 运行 。 但 是 如 果 str(k) 不 是 一 个 
存在 的 键 ， 代 码 就 会 陷入 无 限 递归 。 这 是 因为 missing _ 的 最 后 一 行 中 的 
self[str(key)] 会 调用 getitem ， 而 这 个 str(key) 又 不 存在 ， 于 是 
__missing _ 又 会 被 调用 。 


为 了 保持 一 致 性 ，_contains _ 方法 在 这 里 也 是 必需 的 。 这 是 因为 k in d 这 个 操作 会 
调用 它 ， 但 是 我 们 大 dict 继承 到 的 __contains_ _ 方法 不 会 在 找 不 到 键 的 时 候 调 用 

_ missing 方法。_contains_ 里 还 有 个 细节 ， 就 是 我 们 这 里 没有 用 更 具 Python M 
格 的 方式 一 k in my_dict 来 检查 键 是 否 存在 ， 因 为 那 也 会 导致 _contains 被 
为 了 避免 这 一 情况 ， 这 里 采取 了 更 显 式 的 方法 ， 直 接 在 这 个 self.keys() 里 
HHJ o 























































































































` Rk in my_dict.keys() 这 种 操作 在 Python 3 中 是 很 快 的 ， 而 且 即 便 映射 类 
型 对 象 很 庞大 也 没关系 。 这 是 因为 dict.keys() 的 返回 值 是 一 个 “视图”。 视图 就 像 
一 个 集合 ， 而 且 跟 字典 类 似 的 是 ， 在 视图 里 查找 一 个 元 素 的 速度 很 快 。 在 “Dictionary 
view Obie ects” Chttps://docs.python.org/3/library/stdtypes.html#dictionary-view-objects) 里 
可 以 找到 关于 这 个 细节 的 文档 。Python 2 的 dict.keys() 返回 的 是 个 列表 ， 因 此 虽 
然 上 面 的 方法 仍然 是 正确 的 ， 它 在 处 理 体 积 大 的 对 象 的 时 候 效 率 不 会 太 高 ， 因 为 k 
in my_list 操作 需要 扫描 整个 列表 。 
























































出 于 对 准确 度 的 考虑 ， 我 们 也 需要 这 个 按照 键 的 原本 的 值 来 查找 的 操作 〈 也 就 是 key in 
self.keys()) ， 因 为 在 创建 strKeyDicte 和 为 它 添加 新 值 的 时 候 ， 我 们 并 没有 强制 要 






































求 传 入 的 键 必须 是 字符 串 。 因 为 这 个 操作 没有 规定 死 键 的 类 型 ， 所 以 让 碍 找 操作 变 得 更 加 


友好 。 


好 了 ， 我 们 已 经 Mat 
类 型 ， 下 面 就 来 看 看 。 











dict 和 defaultdict 了 。 但 是 标准 库 里 面 还 有 很 多 其 他 的 映射 


3.5 字典 的 变种 


这 一 节 总 结 了 标准 库 里 collections 模块 中 ， 除 了 defaultdict 之 外 的 不 同 映射 类 
型 。 


collections.OrderedDict 


这 个 类 型 在 添加 键 的 时 候 会 保持 顺序 ， 因 此 键 的 迭代 次 序 总 是 一 致 
的 。OrderedDict 的 popitem 方法 默认 删除 并 返回 的 是 字典 里 的 最 后 一 个 元 素 ， 但 是 如 
果 像 my_odict.popitem(1ast=False) 这 样 调用 它 ， 那 么 它 删 除 并 返回 第 一 个 被 添加 进 
去 的 元 素 。 














collections.ChainMap 


该 类 型 可 以 容纳 数 个 不 同 的 映射 对 象 ， 然 后 在 进行 键 查 找 操作 的 时 候 ， 这 些 对 象 会 被 
当 作 一 个 整体 被 逐个 查找 ， 直 到 键 被 找到 为 止 。 这 个 功能 在 给 有 风 套 作用 域 的 语言 做 解释 
器 的 时 候 很 有 用 ， 可 以 用 一 个 映射 对 象 来 代表 一 个 作用 域 的 上 下 文 。 在 collections X 
档 介 绍 ChainMap 对 象 的 那 一 部 分 
(https://docs.python.org/3/library/collections.html#collections.ChainMap) 里 有 一 些 具体 的 使 
用 示例 ， 其 中 包含 了 下 面 这 个 Python 变量 查询 规则 的 代码 片段 : 














import builtins 
pylookup = ChainMap(locals(), globals(), vars(builtins)) 








collections.Counter 


这 个 映射 类 型 会 给 键 准备 一 个 整数 计数 器 。 每 次 更 新 一 个 键 的 时 候 都 会 增加 这 个 计数 
器 。 所 以 这 个 类 型 可 以 用 来 给 可 散 列 表 对 象 计数 ， 或 者 是 当成 多 重 集 来 用 一 一 多 重 集合 就 
是 集合 里 的 元 素 可 以 出 现 不 止 一 次 。Counter 实现 了 + 和 - 运算 符 用 来 合并 记录 ， 还 有 
像 most_common([n]) 这 类 很 有 用 的 方法 。most_common([n]) 会 按照 次 序 返 回 映 射 里 
最 常见 的 n 个 键 和 它们 的 计数 ， 详 情 参 阅 文 档 
(https://docs.python.org/3/library/collections.html#collections.Counter) 。 下 面 的 小 例子 利用 
Counter 来 计算 单词 中 各 个 字母 出 现 的 次 数 : 



































>>> ct = collections.Counter('abracadabra' ) 

>>> ct 

Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1}) 

>>> ct.update('aaaaazzz' ) 

>>> ct 

Counter({'a': 10, 'z': 3, ‘b': 2, 'r': 2, 'c': 1, 'd': 1}) 
>>> ct.most_common(2) 

[('a', 10), ('z', 3)] 








colllections.UserDict 


这 个 类 其 实 就 是 把 标准 dict 用 纯 Python 又 实现 了 一 遍 。 


ER OrderedDict. ChainMap 和 Counter 这 些 开 箱 即 用 的 类 型 不 同 ，UserDict 是 让 用 户 
继承 写 子 类 的 。 下 面 就 来 试 试 。 


3.6” 子 类 化 UserDict 


就 创造 自 定 义 映 射 类 型 来 说 ， 以 UserDict 为 基 类 








便 。 








， 总 比 以 普通 的 dict 为 

















基 类 要 来 得 方 


这 体现 在 ， 我 们 能 够 改进 示例 3-7 中 定义 的 StrKeyDicte 类 ， 使 得 所 有 的 键 都 存储 为 字 





符 串 类 型 。 
































而 更 倾向 于 从 UserDict 而 不 是 从 dict 继承 的 主要 原因 是 ， 后 者 有 时 会 在 某 些 方法 的 实 








现 上 走 一 些 捷 径 ， 导 致 我 们 不 得 不 在 它 的 子 类 中 重 写 这 些 方法 


来 这 些 问 题 。5 





5 关于 从 dict 或 者 其 他 内 置 类 继承 到 底 有 什么 不 好 ， 详 











另外 一 个 值得 注意 的 地 方 是 ，UserDict 并 不 是 dict 的 子 类 ， 





见 12.1 节 。 








， 但 是 UserDict 就 不 会 带 


但 是 UserDict 有 一 个 叫 





作 data 的 属性 ， 是 dict 的 实例 ， 这 个 属性 实际 上 是 UserDict 最 终 存储 数据 的 地 方 。 








这 样 做 的 好 处 是 ， 比 起 示例 3-7，UserDict 的 子 类 就 能 在 实现 





不 必要 的 递归 ， 也 可 以 让 contains 里 的 代码 更 简洁 。 


多 亏 了 UserDict， 示 例 3-8 里 的 StrKeyDict 的 代码 比 示例 3-7 里 的 StrKeyDicte 要 短 
一 些 ， 功 能 却 更 完善 ， 它 不 但 把 所 有 的 键 都 以 字符 串 的 形式 存储 ， 
更 新 实例 时 包含 非 字 符 串 类 型 的 键 这 类 意外 情况 。 























示例 3-8 无论 是 添加 、 更 新 还 是 查询 操作 ，StrKeyDict 都 会 把 非 字 符 


为 字符 串 











__setitem__ 





aA 














BA Fee 








些 创建 或 者 


的 时 候 避 免 














品 的 键 转换 





import collections 
class StrKeyDict(collections.UserDict): © 


def _missing (self, key): @ 
if isinstance(key, str): 
raise KeyError(key) 
return self[str(key) ] 


def _ contains (self, key): 
return str(key) in self.data © 


def _ setitem (self, key, item): 
self.data[str(key)] = item @ 








@ strkeyDict 是 对 UserDict 的 扩展 。 


© _ missing _ 跟 示 例 3-7 里 的 一 模 一 样 





o 





@ contains _ 则 更 简洁 些 。 这 里 可 以 放心 假设 所 有 已 经 存储 的 键 都 是 字符 
此 ， 只 要 在 self.data 上 查询 就 好 了 ， 并 不 需要 像 StrKeyDicte 那样 去 麻烦 














self.keys(). 


@ setitem ”会 把 所 有 的 键 都 转换 成 字符 串 。 由 于 把 具体 的 实现 委托 给 了 self.data 
属性 ， 这 个 方法 写 起 来 也 不 难 。 


因为 UserDict 继承 的 是 MutableMapping， 所 以 StrKeyDict 里 剩 下 的 那些 映射 类 型 的 
方法 都 是 从 UserDict, MutableMapping Ñ Mapping 这 些 超 类 继承 而 来 的 。 特 别 是 最 后 
的 Mapping 类 ， 它 虽然 是 一 个 抽象 基 类 (ABC) ， 但 它 却 提供 了 好 几 个 实用 的 方法 。 以 
下 两 个 方法 值得 关注 。 



































MutableMapping.update 


KREMER WABI ERA, EAE __init__ 里， 让 构造 方法 可 以 利用 
传 入 的 各 种 参数 (其 他 映射 类 型 、 元 素 是 (key, value) 对 的 可 迭代 对 象 和 键 值 参数 ) 
来 新 建 实例 。 因 为 这 个 方法 在 背后 是 用 self[key] = value 来 添加 新 值 的 ， 所 以 它 其 实 
是 在 使 用 我 们 的 ”setitem _ 方法。 














Mapping. get 





在 StrKeyDict® (AP 3-72) 中 ， 我 们 不 得 不 改写 get 方法 ， 好 让 它 的 表现 跟 
_ getitem_ 一致。 而 在 示例 3-8 中 就 没 这 个 必要 了 ， 因 为 它 继承 了 Mapping.get 方 
法 ， 而 Python 的 源码 Chttps://hg.python.org/cpython/file/3.4/Lib/_collections_abc.py#1422) 显 
示 ， 这 个 方法 的 实现 方式 跟 StrKeyDicte.get 是 一 模 一 样 的 。 




















AI 在 写 完 StrKeyDict 这 个 类 之 后 ， 我 读 到 了 Antonie Pitrou 写 的 “PEP 455 一 
Adding a key-transforming dictionary to 

collections” (https://www.python.org/dev/peps/pep-0455/) 。 文 章 附带 的 补丁 里 包含 了 
一 个 叫 作 TransformDict 的 新 类 型 。 这 个 补丁 通过 issue 

18986 Chttp://bugs.python.org/issue18986) 被 吸收 进 了 Python 3.5。 为 了 试 试 这 个 类 ， 
我 把 它 提取 出 来 放 进 了 一 个 单独 的 模块 (在 本 书 代 码 仓库 中 : 03-dict- 
set/transformdict.py, https://github.com/fluentpython/example-code/blob/master/03-dict- 
set/transformdict.py) 。 比 起 StrKeyDict, TransformDict 的 通用 性 更 强 ， 也 更 复 
杂 ， 因 为 它 把 键 存 成 字符 串 的 同时 ， 还 要 按照 它 原 来 的 样子 存 一 份 。 


之 前 我 们 见识 过 了 不 可 变 的 序列 类 型 ， 那 有 没有 不 可 变 的 字典 类 型 呢 ? 这 么 说 吧 ， 在 标准 
库 里 是 没有 这 样 的 类 型 的 ， 但 是 可 以 用 蔡 吴 来 代替 。 























3.7 不 可 变 映射 类 型 


标准 库 里 所 有 的 映射 类 型 都 是 可 变 的 ， 但 有 时 候 你 会 有 这 样 的 需求 ， 比 如 不 能 让 用 户 错误 
地 修改 某 个 映射 。3.4.2 节 提 到 过 Pingo.io， 它 里 面 就 有 个 现成 的 例子 。Pingo.io 里 有 个 映 
射 的 名 字 叫 作 board.pins， 里 面 的 数据 是 GPIO 物理 针脚 的 信息 ， 我 们 当然 不 希望 用 户 
一 个 疏忽 就 把 这 些 信 息 给 改 了 。 因 为 便 件 方面 的 东西 是 不 会 受 软件 影响 的 ， 所 以 如 果 把 这 
个 映射 里 的 信息 改 了 ， 就 跟 物理 上 的 元 件 对 不 上 号 了 。 


从 Python 3.3 开始 ，types 模块 中 引入 了 一 个 封装 类 名 叫 MappingProxyType。 如 果 给 这 
个 类 一 个 映射 ， 它 会 返回 一 个 只 读 的 映射 视图 。 虽 然 是 个 只 读 视 图 ， 但 是 它 是 动态 的 。 这 
意味 着 如 果 对 原 映射 做 出 了 改动 ， 我 们 通过 这 个 视图 可 以 观察 到 ， 但 是 无 法 通过 这 个 视图 
对 原 映射 做 出 修改 。 示 例 3-9 简短 地 对 这 个 类 的 用 法 做 了 个 演示 。 

























































































示例 3-9 用 MappingProxyType 来 获取 字典 的 只 读 实例 mappingproxy 





>>> from types import MappingProxyType 
>>> d = {1:'A'} 

>>> d_proxy = MappingProxyType(d) 

>>> d_proxy 

mappingproxy({1: 'A'}) 

>>> d_proxy[1] @ 

A! 


>>> d_proxy[2] = 'x' @ 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'mappingproxy' object does not support item assignment 
>>> d[2] = 'B' 
>>> d_proxy © 
mappingproxy({1: 'A', 2: 'B'}) 
>>> d_proxy[2] 
'B' 





>>> 





Od 中 的 内 容 可 以 通过 d_proxy 看 到 。 

O 但 是 通过 d_proxy 并 不 能 做 任何 修改 。 

© d_proxy 是 动态 的 ， 也 就 是 说 对 d 所 做 的 任何 改动 都 会 反馈 到 它 上 面 。 

因此 在 Pingo.io 中 我 们 是 这 样 用 它 的 ，Board 的 具体 子 类 会 提供 一 个 包含 针脚 信息 的 私有 
映射 成 员 ， 然 后 通过 公开 属性 .pins 把 这 个 映射 暴露 给 API 的 客户 ， 而 .pins 属性 其 实 


就 是 用 mappingproxy 实现 的 。 一 旦 这 样 写 好 了 ， 客 户 就 不 能 对 这 个 映射 进行 任何 意外 
的 添加 、 移 除 或 者 修改 操作 。8 






















































































5 为 了 照顾 Python 2.7， 现 实 中 的 Pingo.io 没有 借用 MappingProxyType 来 实现 这 个 功能 ， 因 为 它 只 在 Python 3.3 里 才 
有 。 








到 了 这 里 ， 我 们 对 标准 库 中 的 大 多 数 映 射 类 型 都 有 了 一 些 了 解 ， 下 面 让 我 们 移 步 到 集合 类 





3.8 集合 Ve 


“ 集 ” 这 个 概念 在 Python 中 算是 比较 年 轻 的 ， 同 时 它 的 使 用 率 也 比较 低 。set 和 它 的 不 可 变 
的 姊妹 类 型 frozenset 直到 Python 2.3 才 首 次 以 模块 的 形式 出 现 ， 然 后 在 Python 2.6 PE 
们 升级 成 为 内 置 类 型 。 


` 本 书 中 “和 集 ; 或 者 集合”" 既 指 set， 也 指 frozenset。 当 “ 集 ” 仅 指 代 set 类 时 ， 
我 会 用 等 宽 字体 表示 ”7。 























7”“ 集 ”在 英文 中 就 是 set， 因 此 原 书 中 需要 用 等 宽 字体 来 区 分 特 指 和 泛 指 。 


集合 的 本 质 是 许多 唯一 对 象 的 聚集 。 因 此 ， 集 合 可 以 用 于 去 重 : 




















编者 注 

















>>> 1 = ['spam', 'spam', ‘eggs', ‘spam'] 
>>> set(1) 


{'eggs', ‘spam'} 
>>> list(set(1)) 
['eggs', ‘spam'] 





集合 中 的 元 素 必须 是 可 散 列 的 ，set 类 型 本 身 是 不 可 散 列 的 ， 但 是 frozenset 可 以 。 
此 可 以 创建 一 个 包含 不 同 frozenset 的 set。 


除了 保证 唯一 性 ， 集 合 还 实现 了 很 多 基础 的 中 组 运算 符 。 给 定 两 个 集合 a 和 b，a | bik 
回 的 是 它们 的 合集 ，a & b 得 到 的 是 交集 ， 而 a - b 得 到 的 是 差 集 。 合理 地 利用 这 些 操 
作 ， 不 仅 能 够 让 代码 的 行 数 变 少 ， 还 能 减少 Python 程序 的 运行 时 间 。 这 样 做 同时 也 是 为 
从 而 更 容易 判断 程序 的 正确 性 ， 因 为 利用 这 些 运算 符 可 以 省 去 不 必要 的 
循环 和 有 还 辑 操 


例如 ， 我 们 有 一 个 电子 邮件 地 址 的 集合 Chaystack) ， 还 要 维护 一 个 较 小 的 电子 邮件 地 
址 集合 (needles) ， 然 后 求 出 needles 中 有 多 少 地址 同时 也 出 现在 了 heystack 里 。 
借助 集合 操作 ， 我 们 只 需要 一 行 代码 就 可 以 了 《 见 示例 3-10) 。 


示例 3-10 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 两 个 变量 都 是 set 类 型 

































































found = len(needles & haystack) 














如 果 不 使 用 交集 操作 的 话 ， 代 码 可 能 就 变 成 了 示例 3-11 里 那样 。 


示例 3-11 needles 的 元 素 在 haystack 里 出 现 的 次 数 ( 作 用 和 示例 3-10 中 的 相 
同 ) 





found = 6 
for n in needles: 
if n in haystack: 


found += 1 








示例 3-10 比 示例 3-11 的 速度 要 快 一 些 ， 另 一 方面 ， 示 例 3-11 可 以 用 在 任何 可 迭代 对 象 
needles 和 haystack 上 ， 而 示例 3-10 则 要 求 两 个 对 象 都 是 集合 。 话 再 说 回来 ， 束 算 手 
头 没 有 集合 ， 我 们 也 可 以 随时 建立 集合 ， 如 示例 3-12 所 示 。 


示例 3-12 needles 的 元 素 在 haystack 里 出 现 的 次 数 ， 这 次 的 代码 可 以 用 在 任何 
可 迭代 对 象 上 











found = len(set(needles) & set(haystack) ) 





# 另 一 种 写法 : 
found = len(set(needles).intersection(haystack) ) 





示例 3-12 里 的 这 种 写法 会 牵扯 到 把 对 象 转化 为 集合 的 成 本 ， 不 过 如 果 needles 或 者 是 
haystack 中 任意 一 个 对 象 已 经 是 集合 ， 那 么 示例 3-12 的 方案 可 能 就 比 示例 3-11 里 的 要 
更 高 效 。 


以 上 的 所 有 例子 的 运行 时 间 都 能 在 3 毫秒 左右 ， 在 含有 10 000 000 个 元 素 的 haystack 里 
搜索 1000 个 值 ， 算 下 来 大 概 是 每 个 元 素 3 微 秒 。 


除了 速度 极 快 的 查找 功能 〈 这 也 得 归功 于 它 背 后 的 散 列 表 ) ， 内 置 的 set 和 frozenset 


提供 了 丰富 的 功能 和 操作 ， 不 但 让 创建 集合 的 方式 丰富 多 彩 ， 而 且 对 于 set 来 讲 ， 我 们 
还 可 以 对 集合 里 己 有 的 元 素 进 行 修 改 。 在 讨论 这 些 操作 之 前 ， 先 来 看 一 下 相关 的 句法 。 


3.8.1 集合 字面 量 


除 空 集 之 外 ， 集 合 的 字面 量 一 一 {1}、{1，2}， 等 等 一 一 看 起 来 跟 它 的 数学 形式 一 模 一 
样 。 如 果 是 空 集 ， 那 么 必须 写成 set() 的 形式 。 


Be 句法 的 陷阱 


不 要 忘 了 ， 如 果 要 创建 一 个 空 集 ， 你 必须 用 不 带 任何 参数 的 构造 方法 set() WRK 
是 写成 {} 的 形式 ， 跟 以 前 一 样 ， 你 创建 的 其 实 是 个 空 字典 。 


在 Python 3 里 面 ， 除 了 空 集 ， 集 合 的 字符 串 表 示 形 式 总 是 以 {...} 的 形式 出 现 。 







































































>>> s = {1} 
>>> type(s) 
<class 'set'> 


>>> S.pop() 
1 


>>> S 
set() 




















R{1, 2, 3} 这 种 字面 量 句法 相 比 于 构造 方法 Cset([1, 2, 3])) 要 更 快 且 更 易 读 。 
后 者 的 速度 要 慢 一 些 ， 因 为 Python 必须 先 从 set 这 个 名 字 来 查询 构造 方法 ， 然 后 新 建 一 
个 列表 ， 最 后 再 把 这 个 列表 传 入 到 构造 方法 里 。 但 是 如 果 是 像 {1，2，3} 这 样 的 字面 
量 ，Python 会 利用 一 个 专门 的 叫 作 BUILD_SET 的 字 节 码 来 创建 集合 。 


用 dis.dis( 反 汇编 函数 ) 来 看 看 两 个 方法 的 字 节 码 的 不 同 : 






































>>> from dis import dis 
>>> dis('{1}') (1) 
1 © LOAD_CONST 8 (1) 
3 BUILD_SET 1 (2) 
6 RETURN_VALUE 
>>> dis('set([1])') © 
1 @ LOAD_NAME @ (set) @ 
3 LOAD_CONST 8 (1) 
6 BUILD_LIST 1 
9 CALL_FUNCTION 1 (1 positional, © keyword pair) 
12 RETURN_VALUE 











Q 检查 {1} 字面 量 背 后 的 字 节 码 。 
O 特殊 的 字 节 码 BUILD_SET 几乎 完成 了 所 有 的 工作 。 
© set([1]) 的 字 节 码 。 


@ 3 种 不 同 的 操作 代替 了 上 面 的 BUILD_SET: LOAD_NAME、BUILD_LIST 和 
CALL_FUNCTION。 























HF Python 里 没有 针对 frozenset 的 特殊 字面 量 句法 ， 我 们 只 能 采用 构造 方法 。Python 3 
里 frozenset 的 标准 字符 串 表示 形式 看 起 来 就 像 构造 方法 调用 一 样 。 来 看 这 段 控 制 台 对 
话 : 


>>> frozenset(range(10)) 
frozenset({@, 1, 2, 3, 4, 5, 6, 7, 8, 9}) 


ae 就 不 得 不 提 一 下 我 们 已 经 熟悉 的 列表 推导 ， 因 为 也 有 类 似 的 方式 来 新 建 
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3.8.2 ATES 


Python 2.7 带 来 了 集合 推导 (setcomps) 和 之 前 在 3.2 节 里 讲 到 过 的 字典 推导 。 示 例 3-13 
是 个 简单 的 例子 。 


示例 3-13 ”新 建 一 个 Latin-1 字符 集合 ， 该 集合 里 的 每 个 字符 的 Unicode 名 字 里 都 
有 “SIGN” 这 个 单词 




















>>> from unicodedata import name @ 
>>> {chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')} @ 





@ M unicodedata 模块 里 导入 name 函数 ， 用 以 获取 字符 的 名 字 。 
O 把 编码 在 32~255 之 间 的 字符 的 名 字 里 有 ”SIGN 单词 的 挑 出 来 ， 放 到 一 个 集合 里 。 
跟 句 法 相关 的 内 容 就 讲 到 这 里 ， 下 面 看 看 用 于 集合 类 型 的 丰富 操作 。 


3.8.3 ”集合 的 操作 


3-2 列 出 了 可 变 和 不 可 变 集合 所 拥有 的 方法 的 概况 ， 其 中 不 少 是 运算 符 重 载 的 特殊 方 
法 。 表 3-2 则 包含 了 数学 里 集合 的 各 种 操作 在 Python 中 所 对 应 的 运算 符 和 方法 。 其 中 有 些 
运算 符 和 方法 会 对 集合 做 就 地 修改 〈 像 &=、difference_update， 等 等 ) ， 这 类 操作 在 
纯粹 的 数学 世界 里 是 没有 意义 的 ， 另 外 frozenset 也 不 会 实现 这 些 操作 。 















































isdisjoint MutableSet 








discard 
remove 
pop 
clear 
ior 
_iand _ 
__ixor__ 


_isub 


图 3-2: collections.abc 中 ，MutableSet 和 它 的 超 类 的 UML 类 图 〈 箭 头 从 子 类 指 
向 超 类 ， 抽 象 类 和 抽象 方法 的 名 称 以 斜体 显示 ， 其 中 省 略 了 反 向 运算 符 方法 ) 











A 表 3-2 中 的 中 绥 运 算 符 需要 两 侧 的 被 操作 对 象 都 是 集合 类 型 ， 但 是 其 他 的 所 有 
方法 则 只 要 求 所 传 入 的 参数 是 可 迭代 对 象 。 例 如 ， 想 求 4 个 聚合 类 型 a、b、c 和 1d 
的 合集 ， 可 以 用 a.union(b，c，d)， 这 里 a 必须 是 个 set， 但 是 b、c 和 d 则 可 以 
是 任何 类 型 的 可 迭代 对 象 。 


43-2: 集合 的 数学 运算 : 这 些 方 法 或 者 会 生成 新 集合 ， 或 者 会 在 条 件 允 许 的 情况 下 
就 地 修改 集合 
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s&z s.\_\_and\_\_(z) s All z 的 交集 
s.\_\_rand\_\_(z) 反 向 & 操作 







































































































































































































































































eS: eee 把 可 迭代 的 it 和 其 他 所 有 参数 转化 为 集合 ， 然 后 
nag 求 它们 与 s 的 交集 
s.\_\_iand\_\_(z) 把 s 更 新 为 s 和 z 的 交集 
s&æz | 把 可 选 代 的 it 和 其 他 所 有 参数 转化 为 集合 
s.intersection\ update(it, ...) 求 得 它们 与 。 的 交集 ， 然 后 把 s 更 新 成 这 个 交集 
s Z s.\_\_or\_\_(z) 
SPA ROR NaN GZ): 
aes ae 所 有 参数 转化 为 集 
S U s.union(it, ...) 
Z 
Sei \llory AN (2) te 
-= ETTIRA it 和 其 他 所 有 参数 转化 为 集合 
ses uci 求 它们 和 s 的 并 集 ， 并 把 s 更 新 成 这 个 并 集 
s-z s.\_\_sub\_\_(z) JE 作 相 对 补 集 
s.\_\_rsub\_\_(z) 
所 有 参数 转化 为 集合 ， 
7 ° s.difference(it, ...) WAS 数 转化 为 然后 
SZ 
s.\_\_isub\_\_(z) 新 为 它 与 z 的 差 集 
7 ; BHAA it 和 其 他 所 有 参数 转化 为 集合 ， 求 它 
s -= Z s.difference\_update(it, ...) ‘A s 的 差 集 ， 然 后 把 f 更 新 成 这 个 差 集 
s.symmetric\_difference(it) H set(it) 的 对 称 差 集 
SA7 S\N xorn\ \ (Z) Hz 的 对 称 差 集 
s.\_\_rxor\_\_(z) ^ HIERIE 
SA 
Z = s.symmetric\_difference\_update(it, 把 可 迭代 的 it 和 其 他 所 有 然后 
ves 求 它 们 和 s 的 对 称 差 集 ， E s 更 新 成 该 结果 
s^s z |s.\_\_ixor\_\_(z) 把 s 更 新 成 它 与 z 的 对 称 差 集 














在 写 这 本 书 的 时 候 ，Python 有 个 
8743, http://bugs.python.org/issue8743) ， 里 面 说 到 set() 的 运算 符 
Cor, and, sub, xor 和 它们 相对 应 的 就 地 修改 运算 符 ) 要 求 参 数 必须 
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页 是 set() 的 


这 个 
























































实例 ， 这 就 导致 这 些 运 算 符 不 能 被 用 在 collections.abc.Set 这 个 子 类 上 面 。 
缺陷 已 经 在 Python 2.7 和 Python 3.4 里 修复 了 ， 在 你 看 到 这 本 书 的 时 候 ， 它 已 经 成 了 
历史 。 
表 3-3 里 列 出 了 返回 值 是 True 和 False 的 方法 和 运算 符 。 
表 3-3: 集合 的 比较 运算 符 ， 返 回 值 是 布尔 类 型 
数学 符 Python 运算 方法 描述 
号 符 S 
s.isdisjoint(z) 查看 s 和 z 是 否 不 相交 (没有 
ees e ins s.\_\_contains\_\_(e) 元 素 e 是 是 否 属 
<) s 是 否 为 z 的 子 集 
SEa SR Ses Ube eel FENDA it 转化 为 集合 ， 然 后 查看 s 是 否 为 它 的 子 
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否 为 z 的 父 集 
迭代 的 it 转化 为 集合 ， 然 后 查看 s 


s.\_\_ge\_\_(z) 
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s.issuperset(it) 








s>z s.\_\_gt\_\_(z) 























表 3-4: 集合 类 型 的 其 他 方法 







































































set | frozenset 

s.add(e) 把 元 素 e 添加 到 s 4 

s.clear() 移 除 掉 s 中 的 所 有 元 素 

s.copy() 对 s 浅 复制 

s.discard(e) 如 果 s 里 有 e 这 个 元 素 的 话 ， 把 

s.__iter__() 返回 s 的 迭代 器 

s.__len_() len(s) 

s.pop() 从 s 中 移 除 一 个 元 素 并 返 站 ， 若 s 为 空 ， 则 抛 出 keyError 异常 
s.remove(e) Ms PERR e TUK, Fe 元 素 不 存在 ， 则 抛 出 keyError 异常 

















到 这 里 ， 我 们 差不多 把 集合 类 型 的 特性 总 结 完了 。 


下 面 会 继续 探讨 字典 和 集合 类 型 背后 的 实现 ， 看 看 它们 是 如 何 借助 散 列 表 来 实现 这 些 功 能 
的 。 读 完 这 章 余 下 的 内 容 后 ， 就 算 再 遇 到 dict. set 或 是 其 他 这 一 类 型 的 一 些 莫 名 其 妙 
的 表现 ， 你 也 不 会 手足 无 措 。 


























3.9 dict 和 set 的 背后 
想 要 理解 Python 里 字 与 和 集合 类 型 的 长 处 和 弱点 ， 它 们 背后 的 散 列 表 是 绕 不 开 的 一 环 。 
这 一 节 将 会 回答 以 下 几 个 问题 。 

e Python 里 的 dict 和 set 的 效率 有 多 高 ? 

。 为 什么 它们 是 无 序 的 ? 

。 为 什么 并 不 是 所 有 的 Python 对 象 都 可 以 当 作 dict 的 键 或 set 里 的 元 素 ? 


e 为 什么 dict 的 键 和 set 元 素 的 顺序 是 跟 据 它们 被 添加 的 次 序 而 定 的 ， 以 及 为 什么 在 
映射 对 象 的 生命 周期 中 ， 这 个 顺序 并 不 是 一 成 不 变 的 ? 


。 为 什么 不 应 该 在 迭代 循环 dict 或 是 set 的 同时 往 里 添加 元 素 ? 
为 了 让 你 有 动力 研究 散 列表 ， 下 面 先 来 看 一 个 关于 dict 和 set 效率 的 实验 ， 实 验 对 象 里 
大 概 有 上 百 万 个 元 素 ， 而 实验 结果 可 能 会 出 平 你 的 意料 。 
3.9.1 一 个 关于 效率 的 实验 


所 有 的 Python 程序 员 都 从 经 验 中 得 出 结论 ， 认 为 字典 和 和 集合 的 速度 是 非常 快 的 。 接 下 来 
我 们 要 通过 可 控 的 实验 来 证 实 这 一 点 。 


为 了 对 比 容器 的 大 小 对 dict. set K list 的 in 运算 符 效率 的 影响 ， 我 创建 了 一 个 有 
1000 万 个 双 精 度 浮 点 数 的 数组 ， 名 叫 haystack。 另 外 还 有 一 个 包含 了 1000 个 浮 点 数 的 
needles 数组 ， 其 中 500 个 数字 是 从 haystack 里 挑 出 来 的 ， 另 外 500 个 肯定 不 在 
haystack 里 。 


作为 dict 测试 的 基准 ， 我 用 dict.fromkeys() 来 建立 了 一 个 含有 1000 个 浮 点 数 的 名 叫 
haystack 的 字典 ， 并 用 timeit 模块 测试 示例 3-14“〈 与 示例 3-11 相同 ) 里 这 段 代 码 运行 
所 需要 的 时 间 。 


示例 3-14 在 haystack 里 查找 needles 的 元 素 ， 并 计算 找到 的 元 素 的 个 数 






































































































































found = @ 
for n in needles: 


if n in haystack: 
found += 1 








然后 这 段 基准 测试 重复 了 4 次 ， 每 次 都 把 haystack 的 大 小 变 成 了 上 一 次 的 10 倍 ， 直 到 
里 面 有 1000 万 个 元 素 。 最 后 这 些 测 试 的 结果 列 在 了 表 3-5 中 。 


表 3-$: 用 jin 运算 符 在 S$ 个 不 同 大 小 的 haystack 字 典 里 搜索 1000 个 元 素 所 需要 的 时 间 。 























代码 运行 在 一 个 Core 这 笔记 本 上， 了 Python 版 本 是 3.4.0〈 测 试 计算 的 是 示例 3-14 里 循环 
的 运行 时 间 ) 


haystack 的 长 度 增长 系数 dict 花 费时 间 增长 系数 





1000 0.000202s 


10 000 0.000140s 





100 000 0.000228s 


1 000 000 0.000290s 





10 000 000 10 000x 0.000337s 

















也 就 是 说 ， 在 我 的 笔记 本 上 从 1000 个 字典 键 里 搜索 1000 个 浮 点 数 所 需 的 时 间 是 0.000202 
秒 ， 把 同样 的 搜索 在 含有 10 000 000 个 元 素 的 字典 里 进行 一 遍 ， 只 需要 0.000337 秒 。 换 
句 话说 ， 在 一 个 有 1000 万 个 键 的 字典 里 查找 1000 个 数 ， 花 在 每 个 数 上 的 时 间 不 过 是 
0.337 微 秒 一 一 没 错 ， 相 当 于 平均 每 个 数 差 不 多 三 分 之 一 微 秒 。 


作为 对 比 ， 我 把 haystack 换 成 了 set 和 1ist 类 型 ,重复 了 同样 的 增长 大 小 的 实验 。 对 
于 set， 除 了 上 面 的 那个 循环 的 运行 时 间 ， 我 还 测量 了 示例 3-15 那 行 代码 ， 这 段 代 码 也 
计算 了 needles 中 出 现在 haystack 中 的 元 素 的 个 数 。 


示例 3-15 利用 交集 来 计算 needles 中 出 现在 haystack 中 的 元 素 的 个 数 


















































found = len(needles & haystack) 











表 3-6 列 出 了 所 有 测试 的 结果 。 最 快 的 时 间 来 自 “ 集 合 交 集 花 费时 间 ” 这 一 列 ， 这 一 列 的 结 
果 是 示例 3-15 中 利用 集合 & 操作 的 代码 的 效果 。 不 出 所 料 的 是 ， 最 糟糕 的 表现 来 自 “ 列 表 
花费 时 间 ” 这 一 列 。 由 于 列表 的 背后 没有 散 列 表 来 支持 in 运算 符 ， 每 次 搜索 都 需要 扫描 
一 次 完整 的 列表 ， 导 致 所 需 的 时 间 跟 据 haystack 的 大 小 呈 线 性 增长 。 


a 6: 在 5 个 个 同 大 小 的 haystack 里 搜索 1000 个 元 素 所 需 的 时 间 ， haystack 分 别 以 字 
典 、 集 合 和 列表 的 形式 出 现 。 测 试 环境 是 一 个 有 Core 这 处 理 器 的 笔记 本 ， 了 Python 版 本 
是 3.4.0〈 测 试 所 测量 的 代码 是 示例 3- 14 中 的 循环 和 六 例 3-15 的 集合 8 操作 
















































































haystack 的 | 增长 | dict 花 费 | 增长 | 集合 花费 | 增长 | 集合 交集 花 | 增长 | 列表 花费 | 增长 系 
长 度 系数 时 间 系数 时 间 系数 费时 间 系数 时 间 数 











1000 1x 0.000202s | 1.00x | 0.000143s | 1.00 | 0.000087s 1.00x |0.010556s_ | 1.00x 








10 000 10x 0.000140s | 0.69x |0.000147s | 1.03x | 0.000092s 1.06x | 0.086586s | 8.20x 


100 000 100x “| 0.000228s | 1. 0.00024 1s . 0.000163s ; 0.871560s 





1 000 000 1000x |0.000290s | 1. 0.000332s : 0.000250s : 9.189616s | 870.56x 





10 000 000 >A 0.000337s | 1.67x |0.000387s |2.71x | 0.000314s 3.61x | 97.948056s | 9278.90x 



































如 果 在 你 的 程序 里 有 任何 的 磁盘 输入 / 输出， 那么 不 管 查询 有 多 少 个 元 素 的 字典 或 集合 ， 
所 耗费 的 时 间 都 能 忽略 不 计 《〈 前 提 是 字典 或 者 集合 不 超过 内 存 大 小 ) 。 可 以 仔细 看 看 跟 表 
3-6 有 关 的 代码 ， 另 外 在 附录 A 的 示例 A-1 中 还 有 相关 的 讨论 。 


和 对 散 列 
表 内 部 结构 的 讨论 ， 能 解释 诸如 为 什么 键 是 无 序 且 不 稳定 的 


3.9.2 ”字典 中 的 散 列 表 


这 一 节 笼 统 地 描述 了 Python 和 如何 用 散 列表 来 实现 dict KE, 有 些 细节 只 是 一 笔 带 过 ， 像 
CPython 里 的 一 些 优化 技巧 8 就 没有 提 到 。 但 是 总 体 来 说 描述 是 准确 的 。 






























































8python 源码 dictobject.c 模块 (http://hg.python.org/cpython/file/tip/Objects/dictobject.c〉 里 有 丰富 的 注释 ， 另 外 延伸 阅 
读 中 有 对 《代码 之 美 》 一 书 的 引用 。 











` 为 了 简单 起 见 ， 这 里 先 集 中 讨论 dict 的 内 部 结构 ， 然 后 再 延伸 到 集合 上 面 。 


散 列 表 其 实 是 一 个 稀 玻 数组 〈 总 是 有 空白 元 素 的 数组 称 为 稀 玻 数组 ) 。 在 一 般 的 数据 结构 
教材 中 ， 散 列表 里 的 单元 通常 叫 作 表 元 (bucket) 。 在 dict 的 散 列 表 当 中 ， 每 个 键 值 对 
都 占用 一 个 表 元 ， 每 个 表 元 都 有 两 个 部 分 ， 一 个 是 对 键 的 引用 ， 另 一 个 是 对 值 的 引用 。 因 
为 所 有 表 元 的 大 小 一 致 ， 所 以 可 以 通过 偏 移 量 来 读 取 录 个 表 元 。 


因为 Python 会 设法 保证 大 概 还 有 三 分 之 一 的 表 元 是 空 的 ， 所 以 在 快要 达到 这 个 阔 值 的 时 
候 ， 原 有 的 散 列表 会 被 复制 到 一 个 更 大 的 空间 里 面 。 


如 果 要 把 一 个 对 象 放 入 散 列 表 ， 那 么 首先 要 计算 这 个 元 素 键 的 散 列 值 。Python 中 可 以 用 
hash() 方法 来 做 这 件 事 情 ， 接 下 来 会 介绍 这 一 点 。 


01. 散 列 值 和 相等 性 
内 置 的 hash() 方法 可 以 用 于 所 有 的 内 置 类 型 对 象 。 如 果 是 自 定 义 对 象 调用 hash() 


的 话 ， 实 际 上 运行 的 是 自 定 义 的 __hash__。 如 果 两 个 对 象 在 比较 的 时 候 是 相等 的 ， 
那 它们 的 散 列 值 必须 相等 ， 否 则 散 列表 就 不 能 常 运行 了 。 例 如 ， 如 果 1 == 1.6 为 






























































02. 


真 ， 但 其 实 这 两 个 数字 ( 整 型 和 浮 点 ) 
的 内 部 结构 是 完全 不 一 样 的 


为 了 让 散 列 值 能 够 胜任 散 列 表 索 引 这 一 角色 ， 它 们 必须 在 索引 空间 中 尽量 分 散 开 来 。 
这 意味 着 在 最 理想 的 状况 下 ， 越 是 相似 但 不 相等 的 对 象 ， 它 们 散 列 值 的 差别 应 该 越 
大 。 示 例 3-16 是 一 段 代 码 输出 ， 这 段 代 码 被 用 来 比较 散 列 值 的 二 进 制 表 达 的 不 同 。 
注意 其 中 1 和 1.0 的 散 列 值 是 相同 的 ， 而 1.0001、1.0002 和 1.0003 的 散 列 值 则 非常 不 
同 。 




















示例 3-16 在 32 位 的 Python 中 ，1、1.0001、1.0002 和 1.0003 这 几 个 数 的 散 列 
值 的 二 进 制 表 达 对 比 〈 上 下 两 个 二 进 制 间 不 同 的 位 被 ! 高 亮 出 来 ， 表 格 的 最 右 
列 显示 了 有 多 少 位 不 相同 ) 








32-bit Python build 


1 00000000000000000000000000000001 
l= @ 

1.0 00000000000000000000000000000001 
1.0 00000000000000000000000000000001 

LOIL p Ip IOI pH l= 16 
1.0001 Q0101110101101010000101011011101 
1.0001 Q0101110101101010000101011011101 

Hr) TIIE LEEI 1LIIL I 1 1= 20 
1.0002 Q1011101011010100001010110111001 
1.0002 Q1011101011010100001010110111001 

I! Pour) pP Lf 1= 17 


1.0003  00001100000111110010000010010110 























用 来 计算 示例 3-16 的 程序 见于 附录 A。 尽 管 程序 里 大 部 分 代码 都 是 用 来 整理 输出 格 
式 的 ， 考 虑 到 完整 性 ， 我 还 是 把 全 部 的 代码 放 在 示例 A-3 中 了 。 








` 从 Python 3.3 开始 ， str. bytes 和 datetime 对 象 的 散 列 值 计 算 过 程 中 多 
了 随机 的 “加 盐 ? 这 一 步 。 所 加 盐 值 是 Python 进程 内 的 一 个 常量 ， 但 是 每 次 启动 
Python 解释 器 都 会 生成 一 个 不 同 的 盐 值 。 随 机 盐 值 的 加 入 是 为 了 防止 DOS 攻击 
而 采取 的 一 种 安全 措施 。 在 hash__ 特殊 方法 的 文档 

Cet docs.python.org/3/reference/datamodel.html#object. hash ) 里 有 相关 的 详 
细 信 息 。 


了 解 对 象 散 列 值 相关 的 基本 概念 之 后 ， 我 们 可 以 深入 到 散 列 表 工 作 原理 背后 的 算法 
Ja 


























散 列 表 算 法 


为 了 获取 my_dict[search_key] 背后 的 值 ，Python 首先 会 调用 hash(search_key) 
来 计算 search_key 的 散 列 值 ， 把 这 个 值 最 低 的 几 位 数字 当 作 偏 移 量 ， 在 散 列 表 里 
查找 表 元 (具体 取 几 位 ， 得 看 当前 散 列 表 的 大 小 ，。 关 找到 的 表 元 是 空 的 ， 则 抛 出 











KeyError 异常 。 知 不 是 空 的 ， 则 表 元 里 会 有 一 对 found_key:found_value。 这 时 
候 Python 会 检验 search_key == found_key 是 否 为 真 ， 如 果 它 们 相等 的 话 ， 就 会 
返回 found_value. 


如 果 search_key 和 found_key 不 匹配 的 话 ， 这 种 情况 称 为 散 列 冲突 。 发 生 这 种 情 
况 是 因为 ， 散 列表 所 做 的 其 实 是 把 随机 的 元 素 映射 到 只 有 几 位 的 数字 上 ， 而 散 列 表 本 
身 的 索引 又 只 依赖 于 这 个 数字 的 一 部 分 。 为 了 解决 散 列 冲突 ， 算 法 会 在 散 列 值 中 另外 
再 取 几 位 ， 然 后 用 特殊 的 方法 处 理 一 下 ， 把 新 得 到 的 数字 再 当 作 索引 来 寻找 表 元 。10 
车 这 次 找到 的 表 元 是 空 的 ， 则 同样 抛 出 KeyError; 若非 空 ， 或 者 键 匹配 ， 则 返回 这 
na 或 者 又 发 现 了 散 列 冲突 ， 则 重复 以 上 的 步骤 。 图 3-3 展示 了 这 个 算法 的 示意 
图 。 








































使 用 散 列 值 的 另 一 部 分 
来 定位 散 列表 中 的 另 一 行 


计算 键 的 散 列 值 





使 用 散 列 值 的 一 
部 分 来 定位 散 列 
表 中 的 一 个 表 元 






是 


图 3-3: 从 字典 中 取 值 的 算法 流程 图 ;给 定 一 个 键 ， 这 个 算法 要 么 返回 一 个 值 ， 
要 么 抛 出 KeyError 异常 


添加 新 元 素 和 更 新 现 有 键 值 的 操作 几乎 跟 上 面 一 样 。 只 不 过 对 于 前 者 ， 在 发 现 空 表 元 
对 于 后 者 ， 在 找到 相对 应 的 表 元 后 ， 原 表 里 的 值 对 象 会 被 
营 换 成 新 值 。 


男 外 在 插入 新 值 时 ，Python 可 能 会 按照 散 列 表 的 拥挤 程度 来 决定 是 否 要 重新 分 配 内 存 
为 它 扩 容 。 如 果 增 加 了 散 列 表 的 大 小 ， 那 散 列 值 所 占 的 位 数 和 用 作 索 引 的 位 数 都 会 随 
之 增加 ， 这 样 做 的 目的 是 为 了 减少 发 生 散 列 冲突 的 概率 。 

表面 上 看 ， 这 个 算法 似乎 很 费事 ， 而 实际 上 就 算 dict 里 有 数 百 万 个 元 素 ， 多 数 的 搜 
索 过 程 中 并 不 会 有 冲突 发 生 ， 平 均 下 来 每 次 搜索 可 能 会 有 一 到 两 次 冲突 。 在 正常 情况 
下 ， 就 算是 最 不 走运 的 键 所 遇 到 的 冲突 的 次 数 用 一 只 手 也 能 数 过 来 。 


了 解 dict 的 工作 原理 能 让 我 们 知道 它 的 所 长 和 所 短 ， 以 及 从 它 衍 生 而 来 的 数据 类 型 
























































的 优 缺 点 。 下 面 就 来 看 看 dict 这 些 特点 背后 的 原因 。 
































?既然 提 到 了 整 型 ，CPython 的 实现 细节 里 有 一 Ake: 如 果 有 一 个 整 型 对 象 ， 而 且 它 能 被 存 进 一 个 机 器 字 中 ， 那 么 它 的 


| 散 列 值 就 是 它 本 身 的 值 。 









































| 9 在 散 列 冲突 的 情况 下 ， 用 C 语言 写 的 用 来 打 乱 散 列 值 位 的 算法 的 名 字 很 有 意思 ， 叫 perturb。 详 见 CPython 源码 里 
| 的 dictobject.c (https://hg.python.org/cpython/file/tip/Objects/dictobject.c ) 。 














3.9.3 dict 的 实现 及 其 导致 的 结果 
下 面 的 内 容 会 讨论 使 用 散 列表 给 dict 带 来 的 优势 和 限制 都 有 哪些 。 


01. 


02. 








键 必须 是 可 散 列 的 

一 个 可 散 列 的 对 象 必 须 满足 以 下 要 求 。 

(1) 支持 hash() 函数 ， 并 且 通 过 hash_() 方法 所 得 到 的 散 列 值 是 不 变 的 。 
(2) 支持 通过 eq__() 方法 来 检测 相等 性 。 

(3) 若 a == b 为 真 ， 则 hash(a) == hash(b) 也 为 真 。 


所 有 由 用 户 自 定义 的 对 象 默认 都 是 可 散 列 的 ， 因 为 它们 的 散 列 值 由 id() 来 获取 ， 而 
且 它们 都 是 不 相等 的 。 




















Bs 如 果 你 实现 了 一 个 类 的 _eq _ ”方法 ， 并 且 希 望 它 是 可 散 列 的 ， 那 么 它 

定 要 有 个 恰当 的 gee 保证 在 a == b 为 真 的 情况 下 hash(a) == 

hash(b) 也 必定 为 真 。 否 则 就 会 破坏 恒定 的 散 列 表 算 法 ， 导 致 由 这 些 对 象 所 组 

成 的 字典 和 集合 完全 失去 可 靠 性 ， 这 个 后 果 是 非常 可 怕 的 。 另 一 方面 ， 如 果 一 个 
含有 自 定义 的 __eq__ 依赖 的 类 处 于 可 变 的 状态 ， 那 就 不 要 在 这 个 类 中 实现 

_ hash_ 方法 ， 因 为 它 的 实例 是 不 可 散 列 的 。 


字典 在 内 存 上 的 开销 巨大 


由 于 字典 使 用 了 散 列 表 ， 而 散 列 表 又 必须 是 稀疏 的 ， 这 导致 它 在 空间 上 的 效率 低下 。 
举例 而 言 ， 如 果 你 需要 存放 数量 巨大 的 记录 ， 那 么 放 在 由 元 组 或 是 具名 元 组 构成 的 列 
表 中 会 是 比较 好 的 选择 ， 最 好 不 要 根据 ISON 的 风格 ， 用 由 字典 组 成 的 列表 来 存放 这 
些 记录 。 用 元 组 取代 字典 就 能 节省 空间 的 原因 有 两 个 : 其 一 是 避免 了 散 列 表 所 耗费 的 
空间 ， 其 二 是 无 需 把 记录 中 字段 的 名 字 在 每 个 元 素 里 都 存 一 i 


在 用 户 自 定 义 的 类 型 中 ， ”slots _ 属性 可 以 改变 实例 属性 的 存储 方式 ， 由 dict 变 
成 tuple， 相 关 细 节 在 9.8 节 会 谈 到 。 


记 住 我 们 现在 讨论 的 是 空间 优化 。 如 果 你 手头 有 几 百 万 个 对 象 ， 而 你 的 机 器 有 几 个 
GB 的 内 存 ， 那 么 空间 的 优化 工作 可 以 等 到 真正 需要 的 时 候 再 开始 计划 ， 因 为 优化 往 
往 是 可 维护 性 的 对 立 面 。 





































































































03. 


04. 





键 查询 很 快 


dict 的 实现 是 典型 的 空间 换 时 间 : 字典 类 型 有 着 巨大 的 内 存 开销 ， 但 它们 提供 了 无 
视 数据 量 大 小 的 快速 访问 只 要 字典 能 被 装 在 内 存 里 。 正 如 表 3-5 所 示 ， 如 果 把 字 
典 的 大 小 从 1000 个 元 素 增加 到 10 000 000 个 ， 查 询 时 间 也 不 过 是 原来 的 2.8 倍 ， 从 
0.000163 秒 增加 到 了 0.00456 秒 。 这 意味 着 在 一 个 有 1000 万 个 元 素 的 字典 里 ， 每 秒 
能 进行 200 万 个 键 查询 。 


键 的 次 序 取决 于 添加 顺序 


当 往 dict 里 添加 新 键 而 又 发 生 散 列 冲突 的 时 候 ， 新 键 可 能 会 被 安排 存放 到 男 一 个 位 
置 。 于 是 下 面 这 种 情况 就 会 发 生 : H dict([key1, valuel), (key2, value2)] 

和 dict([key2, value2], [key1, value1]) 得 到 的 两 个 字典 ， 在 进行 比较 的 时 
候 ， 它 们 是 相等 的 ， 但 是 如 果 在 key1 和 key2 被 添加 到 字典 里 的 过 程 中 有 冲突 发 生 
的 话 ， 这 两 个 键 出 现在 字典 里 的 顺序 是 不 一 样 的 。 

示例 3-17 展示 了 这 个 现象 。 这 个 示例 用 同样 的 数据 创建 了 3 个 字典 ， 唯 一 的 区 别 就 
是 数据 出 现 的 顺序 不 一 样 。 可 以 看 到 ， 虽 然 键 的 次 序 是 乱 的 ， 这 3 个 字典 仍然 被 视 作 


相等 的 。 


示例 3-17 dialcodes.py 将 同样 的 数据 以 不 同 的 顺序 添加 到 3 个 字典 里 



































































































































# 世界 人 口 数量 前 16 位 国家 的 电话 区 号 
DIAL_CODES = [ 
(86, 'China'), 
(91, 'India'), 
(1, ‘United States’), 
(62, 'Indonesia'), 
(55, ‘'Brazil'), 
(92, 'Pakistan'), 
(880, 'Bangladesh'), 
(234, 'Nigeria'), 
(7, 'Russia'), 
(81, 'Japan'), 
] 


d1 = dict(DIAL_CODES) @ 

print('d1:', d1i.keys()) 

d2 = dict(sorted(DIAL_CODES)) @ 

print('d2:', d2.keys()) 

d3 = dict(sorted(DIAL_CODES, key=lambda x:x[1])) © 
print('d3:', d3.keys()) 

assert d1 == d2 and d2 == d3 @ 


























O 创建 d1 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 人 口 排名 来 决定 的 。 

O 创建 d2 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 的 电话 区 号 来 决定 的 。 

© 创建 d3 的 时 候 ， 数 据 元 组 的 顺序 是 按照 国家 名 字 的 英文 拼写 来 决定 的 。 

@ 这 些 字典 是 相等 的 ， 因 为 它们 所 包含 的 数据 是 一 样 的 。 示 例 3-18 里 是 上 面 例子 的 




















输出 。 


示例 3-18 dialcodes.py 的 输出 中 ，3 个 字典 的 键 的 顺序 是 不 一 样 的 








d1: dict_keys([880, 1, 86, 55, 7, 234, 91, 92, 62, 81]) 
d2: dict_keys([880, 1, 91, 86, 81, 55, 234, 7, 92, 62]) 
d3: dict_keys([880, 81, 1, 86, 55, 7, 234, 91, 92, 62]) 








05. 往 字 典 里 添加 新 键 可 能 会 改变 已 有 键 的 顺序 


无 论 何 时 往 字 典 里 添加 新 的 键 ，Python 解释 器 都 可 能 做 出 为 字典 扩容 的 决定 。 扩 容 导 
致 的 结果 就 是 要 新 建 一 个 更 大 的 散 列表 ， 并 把 字典 里 己 有 的 元 素 添 加 到 新 表 里 。 这 个 
过 程 中 可 能 会 发 生 新 的 散 列 冲突 ， 导 致 新 散 列表 中 键 的 次 序 变 化 。 要 注意 的 是 ， 上 面 
提 到 的 这 些 变化 是 否 会 发 生 以 及 如 何 发 生 ， 都 依赖 于 字典 背后 的 具体 实现 ， 因 此 你 不 
能 很 自信 地 说 自己 知道 背后 发 生 了 什么 。 如 果 你 在 达 代 一 个 字典 的 所 有 键 的 过 程 中 同 
ee ee yee = ee 


HERTAN, ANSE SERINE TIA AMER. REAST, lee ay 
两 步 来 进行 : TFET FRAR, IEH rs BESOIN AE, TEE A ACE a 
里 ， 和 迭代 结束 之 后 再 对 原 有 字典 进行 更 新 。 



















































































~I 在 Python3 '#, .keys(). .items() 和 .values() 方法 返回 的 都 是 字典 
视图 。 也 就 是 说 ， 这 些 方 法 返回 的 值 更 像 集合 ， 而 不 是 像 Python 2 那样 返回 列 
表 。 视 图 还 有 动态 的 特性 ， 它 们 可 以 实时 反馈 字典 的 变化 。 


现在 已 经 可 以 把 学 到 的 有 关 散 列表 的 知识 应 用 在 集合 上 面 了 。 


3.9.4 ”set 的 实现 以 及 导致 的 结果 

set 和 frozenset 的 实现 也 依赖 散 列 表 ， 但 在 它们 的 散 列 表 里 存放 的 只 有 元 素 的 引用 
(就 像 在 字典 里 只 存放 键 而 没有 相应 的 值 ) 。 在 set 加 入 到 Python 之前， 我 们 都 是 把 字 
典 加 上 无 意义 的 值 当 作 集 合 来 用 的 。 


在 3.9.3 节 中 所 提 到 的 字典 和 散 列 表 的 几 个 特点 ， 对 集合 来 说 几乎 都 是 适用 的 。 为 了 避免 
太 多 重复 的 内 容 ， 这 些 特点 总 结 如 下 。 


。 集合 里 的 元 素 必 须 是 可 散 列 的 。 

。 集合 很 消耗 内 存 。 

。 可 以 很 高 效 地 判断 元 素 是 否 存在 于 茶 个 集合 。 

。 元 素 的 次 序 取决 于 被 添加 到 集合 里 的 次 序 。 

。 往 集合 里 添加 元 素 ， 可 能 会 改变 集合 里 己 有 元 素 的 次 序 。 























3.10 本章 小 结 


字典 算得 上 是 Python 的 基石 。 除 了 基本 的 dict 之 外 ， 标 准 库 还 提供 现成 且 好 用 的 特殊 映 
射 类 型 ， 比 如 defaultdict、OrderedDict、ChainMap 和 Counter。 这 些 映射 类 型 都 
属于 collections 模块 ， 这 个 模块 还 提供 了 便于 扩展 的 UserDict 类 。 


大 多 数 映射 类 型 都 提供 了 两 个 很 强大 的 方法 : setdefault 和 update. setdefault 方 
法 可 以 用 来 更 新 字典 里 存放 的 可 变 值 〈 比 如 列表 ) ， 从 而 避免 了 重复 的 键 搜索 。update 
方法 则 让 批量 更 新 成 为 可 能 ， 它 可 以 用 来 插入 新 值 或 者 更 新 已 有 键 值 对 ， 它 的 参数 可 以 是 
LG (key, value) 这 种 键 值 对 的 可 迭代 对 象 ， 或 者 关键 字 参 数 。 映 射 类 型 的 构造 方法 
eae update PARIHA a EH Bl RE OT St TARN RRE HE FBS BOR Bl) 
建新 


在 映射 类 型 的 API 中 ， 有 个 很 好 用 的 方法 是 _ missing ”， 当 对 象 找 不 到 某 个 键 的 时 
候 ， 可 以 通过 这 个 方法 自 定义 会 发 生 什么 。 


collections.abc 模块 提供 了 Mapping 和 MutableMapping 这 两 个 抽象 基 类 ， 利 用 它 
们 ， 我 们 可 以 进行 类 型 查询 或 者 引用 。 不 太 为 人 所 知 的 MappingProxyType 可 以 用 来 创 
建 不 可 变 映射 对 象 ， 它 被 封装 在 types 模块 中 。 另 外 还 有 Set 和 MutableSet 这 两 个 抽 


dict 和 set 背后 的 散 列 表 效 率 很 高 ， 对 它 的 了 解 越 深 入 ， 就 越 能 理解 为 什么 被 保存 的 元 
素 会 呈现 出 不 同 的 顺序 ， 以 及 已 有 的 元 素 顺序 会 发 生变 化 的 原因 。 同 时 ， 速 度 是 以 牺牲 空 
间 为 代价 而 换 来 的 。 


































































































































































































3.11 延伸 阅读 


Python 标准 库 中 的 “8.3. collections—Container datatypes” 一 节 
(https://docs.python.org/3/library/collections.html) 提 到 了 关于 一 些 映射 类 型 的 例子 和 使 用 
技巧 。 如 果 想 要 创建 新 的 映射 类 型 ， 或 者 是 体会 一 下 现 有 的 映射 类 型 的 实现 方式 ，Python 

模块 Lib/collections/__ init__.py 的 源码 是 一 个 很 好 的 参考 。 


《Python Cookbook (45 3 版 ) 中 文 版 》 (David Beazley 和 Brian K. Jones 3#) 的 第 1 章 中 
有 20 个 关于 数据 结构 的 使 用 技巧 ， 大 多 数 都 在 讲 dict 的 巧妙 用 法 。 


“Python 的 字典 类 : 如 何 打造 全 能 战士 "是 《代码 之 美 》 第 18 章 的 标题 ， 这 一 章 集中 解释 
了 Python 字典 背后 的 工作 原理 。A.M. Kuchling 是 这 Bie, 同时 他 还 是 Python 的 核 
心 开发 者 ， 并 撰写 了 很 多 Python 的 官方 文档 和 指南 。 同 时 CPython 模块 里 的 
dictobject.c 源 文件 (https://hg.python.org/cpython/file/tip/Objects/dictobject.c〉 还 提供 了 

大 量 的 注释 。Brandon Craig Rhodes 的 讲座 “The Mighty 

Dictionary” (http://pyvideo.org/video/276/the-mighty-dictionary-55) 对 散 列 表 做 了 很 精彩 的 
讲解 ， 有 趣 的 是 他 的 幻灯 片 里 也 包含 了 大 量 的 表格 。 


关于 为 什么 要 在 语言 里 加 入 集合 这 种 数据 类 型 ， 当 初 也 是 有 一 番 考 量 的 。 具 体 情 况 

在 “PEP 218 — Adding a Built-In Set Object Type” (https://www.python.org/dev/peps/pep- 
0218/) 中 有 所 记录 。 在 PEP 128 刚刚 通过 的 时 候 ， 还 没有 针对 set 的 特殊 字面 量 句法 。 
后 来 Python 3 里 加 入 了 对 set 字面 量 句法 的 文 持 ， 然 后 这 个 实现 又 被 向 后 兼容 到 了 Python 
2.7 里 ， 同 时 被 移植 的 还 有 dict 和 set HES. “PEP 274 一 Dict 

Comprehensions” (https://www.python.org/dev/peps/pep-0274/) 就 是 字典 推导 的 出 生 证 ; 然 
而 我 找 不 到 任何 关于 集合 推导 的 PEP， 当 然 很 有 可 能 是 因为 这 两 个 功能 太 接 近 了 。 
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杂谈 


我 的 朋友 Geraldo Cohen 曾经 说 过 ，Python 的 特点 是 “简单 而 正确 ”。 

















dict 类 : 
aaa THEA: # 果 非常 好 ， 由 于 速度 快 而 且 够 健壮 ， 它 大 量 地 应 用 于 Python 
的 解释 器 当中 。 如 果 对 排序 有 要 求 ， 那 么 还 可 以 选择 OrderedDict。 然 而 对 于 映射 
类 型 来 说 ， 保 持 元 素 的 顺序 并 不 是 一 个 常用 需求 ， 因 此 会 把 它 排除 在 核心 功能 之 外 ， 
而 以 标准 库 的 形式 提供 其 他 衍生 的 类 型 。 


与 之 形成 鲜明 对 比 的 是 PHP。 在 PHP 手册 中 ， 数 组 的 描述 如 下 
Chttp://php.net/manual/en/language.types.array.php) : 


PHP 中 的 数组 实际 上 是 一 个 有 序 的 映射 一 一 映射 类 型 存放 的 是 键 值 对 。 这 个 映射 
类 型 被 优化 为 可 充当 不 同 的 角色 。 它 可 以 当 作 数组 、 列 表 《〈 向 量 ) 、 散 列表 CR 
射 类 型 的 一 种 实现 ) 、 字 典 、 集 合 类 型 、 栈 、 队 列 或 其 他 可 能 的 数据 类 型 。 


单 任 这 段 话 ， 我 无 法 想象 PHP 把 list 和 OrderedDict 混合 实现 的 成 本 有 多 大 。 

































































本 书 前 两 章 的 目的 是 展示 Python 中 的 集合 类 型 为 特定 的 使 用 场景 做 了 怎样 的 优化 。 
我 特意 强调 了 在 List 和 dict 的 常规 用 法 之 外 还 有 那些 特殊 的 使 用 情景 。 


在 遇 到 Python 之 前 ， 我 主要 使 用 Perl, PHP 和 JavaScript 做 网 站 开发 。 我 很 喜欢 这 些 
语言 中 跟 上 映射 类 型 相关 的 字面 量 句 法 特性 。 某 些 时 候 我 不 得 不 使 用 Java 和 C， 然 后 
我 就 会 疡 狂 地 想念 这 些 特性 。 好 用 的 映射 类 型 的 字面 量 句法 可 以 帮助 开发 者 轻松 实现 
配置 和 表格 相关 的 开发 ， 也 能 让 我 们 很 方便 地 为 原型 开发 或 者 测试 准备 好 数据 容器 。 
Java 由 于 没有 这 个 特性 ， 不 得 不 用 复杂 且 宛 长 的 XML 来 苦 代 。 


JSON 被 当 作 “瘦身 版 XML” Chttp://www.json.org/fatfree.html) 。 在 很 多 情景 下 ，JSON 
u XML。 由 于 拥有 紧凑 的 列表 和 字典 表达 ，JSON 格式 可 以 完美 地 用 于 数 


PHP 和 Ruby 的 散 列 语法 借鉴 了 Perl， 它 们 都 用 => 作为 键 和 值 的 连接 。JavaScript 则 
从 Python 那儿 偷 师 ， 使 用 了 :。 而 JSON 又 从 JavaScript 发 展 而 来 ， 它 的 语法 正好 是 
Python 句法 的 子 集 。 因 此 ， 除 了 在 true、false 和 null 这 几 个 值 的 拼写 上 有 出 入 
之 外 ，JSON 和 Python 是 完全 兼容 的 。 于 是 ， 现 在 大 家 用 来 交换 数据 的 格式 全 是 
Python 的 dict 和 1ist。 


简单 而 正确 。 

























































































第 4 章 MAAS APS 
人 类 使 用 文本 ， 计 算 机 使 用 字 节 序列 。1 


Esther Nam 和 Travis Fischer 
“Character Encoding and Unicode in Python” 





'PyCon 2014, “Character Encoding and Unicode in Python” 演 讲 的 第 12 张 幻灯 片 AT 
Chttp//www.slideshare.net/fischertrav/character-encoding-unicode-how-to-with-dignity-33352863) ， 视 频 
(http//pyvideo.org/pycon-us-2014/character-encoding-and-unicode-in-python.html) ]. 











Python 3 明确 区 分 了 人 类 可 读 的 文本 字符 串 和 原始 的 字 节 序列 。 隐 式 地 把 字 节 序列 转换 成 
Unicode 文本 已 成 过 去 。 本 章 将 要 讨论 Unicode 字符 串 、 二 进 制 序列 ， 以 及 在 二 者 之 间 转 
换 时 使 用 的 编码 。 

深入 理解 Unicode 对 你 可 能 十 分 重要 ， 也 可 能 无 关 紧 要 ， 这 取决 于 Python 编程 的 场景 。 说 
到 底 ， 本 章 涵 盖 的 问题 对 只 处 理 ASCE 文本 的 程序 员 没 有 影响 。 但 是 即便 如 此 ， 也 不 能 避 
而 不 谈 字符 串 和 字 节 序列 的 区 别 。 此 外 ， 你 会 发 现 专门 的 二 进 制 序列 类 型 所 提供 的 功能 ， 
有 些 是 Python 2 中 “全 功能 ”的 str 类 型 不 具有 的 。 

本 章 将 讨论 下 述 话题 : 

字符 、 码 位 和 字 节 表述 

bytes, bytearray 和 memoryview 等 二 进 制 序列 的 独特 特性 

。 全 部 Unicode 和 陈旧 字符 集 的 编 解 码 器 

避免 和 处 理 编码 错误 

。 处 理 文本 文件 的 最 佳 实践 

。 默认 编码 的 陷阱 和 标准 IO 的 问题 

规范 化 Unicode 文本 ， 进 行 安全 的 比较 

。 规范化 、 大 小 写 折 倒 和 暴力 移 除 音调 符号 的 实用 函数 

使 用 locale 模块 和 PyUCA 库 正 确 地 排序 Unicode 文本 

。 Unicode 数据 库 中 的 字符 元 数据 

o 能 处 理 字符 串 和 字 节 序列 的 双 模 式 API 
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4.1 字符 问题 
“字符 串 ”* 是 个 相当 简单 的 概念 : 一 个 字符 串 是 一 个 字符 序列 。 问 题 出 在 “字符 ”的 定义 上 。 


在 2015 E, “字符 ”的 最 佳 定 义 是 Unicode 字符 。 因 此 ， 从 Python 3 的 str 对 象 中 获取 的 
元 素 是 Unicode 字符 ， 这 相当 于 从 Python 2 的 unicode 对 象 中 获取 的 元 素 ， 而 不 是 从 
Python 2 的 str 对 象 中 获取 的 原始 字 节 序列 。 


Unicode 标准 把 字符 的 标识 和 有 具体 的 字 节 表述 进行 了 如 下 的 明确 区 分 。 


。 字符 的 标识 ， 即 码 位 ， 是 0~1 114111 的 数字 十进制) ， 在 Unicode 标准 中 以 4~6 
个 十 六 进 制 数字 表示 ， 而 且 加 前 级 “U4+”。 例 如 ， 字 母 A 的 码 位 是 UH0041， 欧 元 符号 
的 码 位 是 Ut+20AC， 高 音 谱 号 的 码 位 是 Ut+1D11E。 在 Unicode 6.3 中 (这 是 Python 3.4 
使 用 的 标准 ) ， 约 10% 的 有 效 码 位 有 对 应 的 字符 。 


字符 的 具体 表述 取决 于 所 用 的 编码 。 编 码 是 在 码 位 和 字 节 序列 之 间 转 换 时 使 用 的 算 
法 。 在 UTF-8 编码 中 ，A (U+0041) 的 码 位 编码 成 单个 字 节 \x41， 而 在 UTF-16LE 
编码 中 编码 成 两 个 字 节 \X41\X68。 再 举 个 例子 ， 欧 元 符号 〈U+H20AC) 在 UTF-8 编 
码 中 是 三 个 字 节 -一 \xe2\Xx82\xac， 而 在 UTF-16LE 中 编码 成 两 个 字 

W: \xac\x2@. 


把 码 位 转换 成 字 节 序列 的 过 程 是 编码 ; 把 字 节 序列 转换 成 码 位 的 过 程 是 解码 。 示 例 4-1 
阐释 了 这 一 区 分 。 


示例 4-1 编码 和 解码 

























































































>>> s = 'café' 

>>> len(s) # © 

4 

>>> b = s.encode('utf8') #@ 
>>> b 

b'caf\xc3\xa9' # © 

>>> len(b) # © 


5 
>>> b.decode('utf8') # O 
"café 








@ ‘café! 字符 串 有 4 个 Unicode 字符 。 

© 使 用 UTF-8 把 str 对 象 编码 成 bytes 对 象 。 

© bytes 字面 量 以 b 开头 。 

O 字 节 序列 b 有 5 个 字 节 (在 UTF-8 中 ,，“é” 的 码 位 编码 成 两 个 字 节 〉。 
@ 使 用 UTF-8 把 bytes 对 象 解码 成 str 对 象 。 



































A 如 果 想 帮助 自己 记 住 .decode() 和 .encode() 的 区 别 ， 可 以 把 字 节 序列 想 成 
E WEE TE AY PLAS WES ee fig, FE Unicode 字符 串 想 成 “人 类 可 读 ” 的 文本 。 那 么 ， 把 字 节 
序列 变 成 人 类 可 读 的 文本 字符 串 就 是 解码 ， 而 把 字符 串 变 成 用 于 存储 或 传输 的 字 节 
序列 就 是 编码 。 


虽然 Python 3 的 str 类 型 基本 相当 于 Python 2 的 unicode 类 型 ， 只 不 过 是 换 了 个 新 名 
FK, (BÆ Python 3 的 bytes 类 型 却 不 是 把 str 类 型 换个 名 称 那 么 简单 ， 而 且 还 有 关系 紧 
密 的 bytearray 类 型 。 因 此 ， 在 讨论 编码 和 解码 的 问题 之 前 ， 有 必要 先 来 介绍 一 下 二 进 
制 序列 类 型 。 




















42 ZTE 


新 的 二 进 制 序列 类 型 在 很 多 方面 与 Python 2 的 str 类 型 不 同 。 首 先 要 知道 ，Python 内 置 了 
两 种 基本 的 二 进 制 序列 类 型 : Python 3 引入 的 不 可 变 bytes 类 型 和 Python 2.6 添加 的 可 变 
bytearray 类 型 。 (Python 2.6 也 引入 了 bytes 类 型 ， 但 那 只 不 过 是 str 类 型 的 别名 ， 与 
Python 3 的 bytes 类 型 不 同 。) 

bytes 或 bytearray 对 象 的 各 个 元 素 是 介 于 0-255 (E) 之 间 的 整数 ， 而 不 像 Python 2 
的 str 对象 那样 是 单个 的 字符 。 然 而 ， 二 进 制 序列 的 切片 始终 是 同一 类 型 的 二 进 制 序 

列 ， 包 括 长 度 为 1 的 切片 ， 如 示例 4-2 所 示 。 


示例 4-2 包含 5 个 字 节 的 bytes 和 bytearray WTR 














>>> cafe = bytes('café', encoding='utf_8') © 
>>> cafe 

b'caf\xc3\xa9' 

>>> cafe[6] @ 

99 

>>> cafe[:1] © 

b'c' 

>>> cafe_arr = bytearray(cafe) 
>>> cafe_arr @ 
bytearray(b'caf\xc3\xa9' ) 

>>> cafe_arr[-1:] © 
bytearray(b'\xa9') 














@ bytes 对 象 可 以 从 str 对 象 使 用 给 定 的 编码 构建 。 
四 各 个 元 素 是 range(256) 内 的 整数 。 
O bytes 对 象 的 切片 还 是 bytes 对 象 ， 即 使 是 只 有 一 个 字 节 的 切片 。 


O bytearray 对 象 没 有 字面 量 句法 ， 而 是 以 bytearray() 和 字 节 序列 字面 量 参数 的 形式 
显示 。 


























@ bytearray 对 象 的 切片 还 是 bytearray 对 象 。 


` my_bytes[0] 获取 的 是 一 个 整数 ， 而 my_bytes[:1] 返回 的 是 一 个 长 度 为 1 
的 bytes 对 象 一 一 这 一 点 应 该 不 会 让 人 意外 。s[8] == s[:1] 5 NE 
WR P, str ADNI MTN NEN. 对 其 他 各 个 序列 类 型 来 说 ，s[i] 返 

回 一 个 元 素 ， 而 s[i:i+1] 返回 一 个 相同 类 型 的 序列 ， 里 面 是 s[i] 元 素 。 


虽然 二 进 制 序列 其 实 是 整数 序列 ， 但 是 它们 的 字面 量 表示 法 表明 其 中 有 ASCI[ 文本 。 因 
此 ， 各 个 字 节 的 值 可 能 会 使 用 下 列 三 种 不 同 的 方式 显示 。 


。 可 打印 的 ASCI 范围 内 的 字 节 (从 空格 到 ~)〉 ， 使 用 ASCII 字符 本 身 。 


























。 制 表 符 、 换 行 符 、 回 车 符 和 \ 对 应 的 字 节 ， 使 用 转 义 序列 \t、\n、\r 和 \\。 
。 其 他 字 节 的 值 ， 使 用 十 六 进 制 转 义 序列 (例如 ，\xe89 是 空 字 节 ) 。 


因此 ， 在 示例 4-2 中 ， 我 们 看 到 的 是 b'caf\xc3\xa9': 前 3 个 字 节 b'caf' 在 可 打印 的 
ASCI 范围 内 ， 后 两 个 字 节 则 不 然 。 


除了 格式 化 方法 (format 和 format_map) 和 几 个 处 理 Unicode 数据 的 方法 (包括 
casefold、isdecimal、isidentifier、isnumeric、isprintable 和 encode) 之 
Sh, str 类 型 的 其 他 方法 都 支持 bytes 和 bytearray 类 型 。 这 意味 着 ， 我 们 可 以 使 用 熟 
悉 的 字符 串 方法 处 理 二 进 制 序列 ， 如 endswith、replace、strip、translate、upper 
等 ， 只 有 少数 几 个 其 他 方法 的 参数 是 bytes 对 象 ， 而 不 是 str 对 象 。 此 外 ， 如 果 正 则 表 
达 式 编译 自 二 进 制 序列 而 不 是 字符 串 ，re 模块 中 的 正则 表达 式 函 数 也 能 处 理 二 进 制 序 
列 。Python 3.0~3.4 不 能 使 用 % 运算 符 处 理 二 进 制 序列 ， 但 是 根据 “PEP 461—Adding % 
formatting to bytes and bytearray” (https://www.python.org/dev/peps/pep-0461/) , Python 3.5 
应 该 会 文 持 。 


二 进 制 序列 有 个 类 方法 是 str 没有 的 ， 名 为 fromhex， 它 的 作用 是 解析 十 六 进 制 数字 对 
数字 对 之 间 的 空格 是 可 选 的) ， 构 建 二 进 制 序列 : 


>>> bytes.fromhex('31 4B CE A9') 
b'1K\xce\xa9' 


构建 bytes 或 bytearray 实例 还 可 以 调用 各 自 的 构造 方法 ， 传 入 下 述 参 数 。 
e — str 对 象 和 一 个 encoding 关键 字 参 数 。 
。 一 个 可 和 迭代 对 象 ， 提 供 0~255 之 间 的 数值 。 
一 个 整数 ， 使 用 空 字 节 创 建 对 应 长 度 的 二 进 制 序列 。[Python 3.5 会 把 这 个 构造 方法 标 


记 为 “过 时 的 ”，Python 3.6 会 将 其 删除 。 参 见 “PEP 467—Minor API improvements for 
binary sequences” Chttps://www.python.org/dev/peps/pep-0467/) > ] 


一 个 实现 了 缓冲 协议 的 对 象 〈 如 
bytes、bytearray、memoryview、array.array) ; 此 时 ， 把 源 对 象 中 的 字 节 序 
列 复制 到 新 建 的 二 进 制 序列 中 。 


使 用 缓冲 类 对 象 构建 二 进 制 序列 是 一 种 低层 操作 ， 可 能 涉及 类 型 转换 。 示 例 4-3 做 了 演 
IRo 


示例 4-3 ”使 用 数组 中 的 原始 数据 初始 化 bytes 对 象 
































































































































>>> import array 

>>> numbers = array.array('h', [-2, -1, ð, 1, 2]) © 
>>> octets = bytes(numbers) @ 

>>> octets 

b'\xfe\xff\ xff\xfF\x00\x80\x81\x80\xe2\xe0' O 














@ 指定 类 型 代码 h， 创 建 一 个 短 整 数 (16 位 ) 数组。 
O octets 保存 组 成 numbers 的 字 节 序列 的 副本 。 
© 这 些 是 表示 那 5 个 短 整 数 的 10 个 字 节 。 


使 用 缓冲 类 对 象 创建 bytes 或 bytearray 对 象 时 ， 始 终 复制 源 对 象 中 的 字 节 序列 。 与 之 
相反 ，memoryview 对 象 允许 在 二 进 制 数据 结构 之 间 共 享 内 存 。 如 果 想 从 二 进 制 序列 中 提 
取 结 构 化 信息 ，struct 模块 是 重要 的 工具 。 下 一 节 会 使 用 这 个 模块 处 理 bytes 和 
memoryview 对 象 。 


结构 体 和 内 存 视 


struct 模块 提供 了 一 些 函 数 ， 把 打包 的 字 节 序列 转换 成 不 同类 型 字段 组 成 的 元 组 ， 还 有 
一 些 函 数 用 于 执行 反 疝 转换 ， 把 元 组 转换 成 打包 的 字 节 序列 。struct 模块 能 处 理 
bytes、bytearray 和 memoryview 对 象 。 


如 2.9.2 节 所 述 ，memoryview 类 不 是 用 于 创建 或 存储 字 节 序列 的 ， 而 是 共享 内 存 ， 让 你 
访问 其 他 二 进 制 序列 、 打 包 的 数组 和 缓冲 中 的 数据 切片 ， 而 无 需 复制 字 节 序列 ， 例 如 
Python Imaging Library (PIL) 2? 就 是 这 样 处 理 图 像 的 。 


































































































2Pilow Chttps//pillow.readthedocs.org/en/latest/) 是 PIL 最 活跃 的 派生 库 。 





示例 4-4 展示 了 如 何 使 用 memoryview 和 struct 提取 一 个 GIF 图 像 的 宽度 和 高 度 。 


示例 4-4 使 用 memoryview 和 struct 查看 一 个 GIF 图 像 的 首部 





>>> import struct 

>>> fmt = '<3s3sHH' # © 

>>> with open('filter.gif', 'rb') as fp: 
img = memoryview(fp.read()) #@ 


>>> header = img[:10] # © 

>>> bytes(header) # O 
b'GIF89a+\x@2\xe6\xe0' 

>>> struct.unpack(fmt, header) # O 
(b'GIF', b'89a', 555, 230) 

>>> del header #@ 

>>> del img 











es < 是 小 字 节 序 ，3s3s 是 两 个 3 字 节 序列 ，HH 是 两 个 16 位 二 进 制 整 


o 





O 使 用 内 存 中 的 文件 内 容 创 建 一 个 memoryview 对 象 .…… 
全 .…... 然 后 使 用 它 的 切片 再 创建 一 个 memoryview 对 象 ， 这 里 不 会 复制 字 节 序列 。 
O 转换 成 字 节 序列 ， 这 只 是 为 了 显示 ; 这 里 复制 了 10 字 节 。 














O 拆 包 memoryview 对 象 ， 得 到 一 个 元 组 ， 包 含 类 型 、 版 本 、 宽 度 和 高 度 。 
@ 删除 引用 ， 释 放 memoryview 实例 所 占 的 内 存 。 


注意 ，memoryview 对 象 的 切片 是 一 个 新 memoryview 对 象 ， 而 且 不 会 复制 字 节 序列 。[ 
本 书 的 技术 审 校 之 一 Leonardo Rochael 指出 ， 如 果 使 用 mmap 模块 把 图 像 打开 为 内 存 映射 
文件 ， 那 么 会 复制 少量 字 节 。 本 书 不 会 讨论 mmap， 如 果 你 经 常 读 取 和 修改 二 进 制 文件 ， 
可 以 阅读 “mmap 一 Memory-mapped file 
support”(https://docs.python.org/3/library/mmap.html ) 来 进一步 学 习 。] 


本 书 不 会 深入 介绍 memoryview 和 struct 模块 ， 如 果 要 处 理 二 进 制 数据 ， 可 以 阅读 它们 
的 文档 : “Built-in Types » Memory 

Views” Chttps://docs.python.org/3/library/stdtypes.html#memory-views ) #ll‘struct—Interpret 
bytes as packed binary data” Chttps://docs.python.org/3/library/struct.html) 。 


简要 探讨 Python 的 二 进 制 序列 类 型 之 后 ， 下 面 说 明 如 何在 它们 和 字符 串 之 间 转 换 。 






































4.3 FEAT Si fA a 


Python 自 带 了 超过 100 种 编 解 码 器 (codec, encoder/decoder) ， 用 于 在 文本 和 字 节 之 间 相 
互 转换 。 每 个 编 解 码 器 都 有 一 个 名 称 ， 如 "utf_8' ， 而 且 经 常 有 几 个 别名 ， 如 

'utf8', 'utf-8' 和 'U8'。 这 些 名 称 可 以 传 给 
open()、str.encode()、bytes.decode() 等 函数 的 encoding 参数 。 示 例 4-5 使 用 3 
个 编 解 码 器 把 相同 的 文本 编码 成 不 同 的 字 节 序列 。 


示例 4-5 使 用 3 个 编 解码 器 编码 字符 串 “El Niio”， 得 到 的 字 节 序列 差异 很 大 







































































>>> for codec in ['latin_1', ‘utf_8', ‘utf_16']: 
print(codec, 'El Nifio'.encode(codec), sep='\t') 


latin 1 b'El Ni\xf1o' 
utf_8 b'El Ni\xc3\xbio' 
utf_16 b'\xff\xfeE\x@0@1\x@e \x@@N\x@0i\xee\xf1\xe00\xee' 
































图 4-1 展示 了 不 同 编 解 码 器 对 “A” 和 高 音 谱 号 等 字符 编码 后 得 到 的 字 节 序列 。 注 意 ， 后 3 
种 是 可 变 长 度 的 多 字 节 编码 。 











. codepoint ascii latin1 cp1252 gb2312 

A U+0041 41 41 41 41 41 41 41 00 
é U+00BF ia BF BF A8 x C2 BF BF 00 
A _—-U+00C3 . C3 C3 x S C3 83 c3 00 
á U+00E1 i E1 E1 AO A8 A2 C3 A1 E1 00 
Q  U+03A9 4 * * EA A6 B8 CE A9 A9 03 
d U+06BF z $ z $ s DA BF BF 06 
b U+201C j i 93 5 A1 BO E2 80 9C 1C 20 
€ U+20AC $ bi 80 i $ E2 82 AC AC 20 
r  U+250C 8 7 i DA A9 BO E2 94 8C Oc 25 
Æ  U+6C14 Š z $ Şi C6 F8 E6 BO 94 14 6C 
5  U+6C23 * X i s 5 E6 BO A3 23 6C 
é U+1D11E * 点 和, i FO 9D 84 9E 34 D8 1E DD 








图 4-1: 12 个 人 字符， 它们 的 码 位 及 不 同 编码 的 字 节 表述 (十 六 进 制 ， 星 号 表明 该 编 
码 不 支持 表示 该 字符 ) 


EPELARRE 学 表明 ， 某 些 编码 〈 如 ASCH 和 多 字 节 的 GB2312) 不 能 表示 所 有 Unicode 
字符 。 然 而 ，UTF 编码 的 设计 目的 就 是 处 理 每 一 个 Unicode 码 位 。 


图 4-1 中 展示 的 是 一 些 典 型 编码 ， 介 绍 如 下 。 




































































latin1 (Bi iso8859_ 1) 





一 种 重要 的 编码 ， 是 其 他 编码 的 基础 ， 例 如 cp1252 和 Unicode GER, latini 与 
cp1252 的 字 节 值 是 一 样 的 ， 甚 至 连 码 位 也 相同 ) 。 


cp1252 


Microsoft 制定 的 latin1 超 集 ， 添 加 了 有 用 的 符号 ， 例 如 弯 引 号 和 € (欧元 ) ; 有 些 
Windows 应 用 把 它 称 为 “ANST'， 但 它 并 不 是 ANSI 标准 。 














cp437 


IBM PC 最 初 的 字符 集 ， 包 含 框图 符号 。 与 后 来 出 现 的 latini 不 兼容 。 








gb2312 
用 于 编码 简体 中 文 的 陈旧 标准 ， 这 是 亚洲 语言 中 使 用 较 广 泛 的 多 字 节 编码 之 一 。 


utf-8 








目前 Web 中 最 常见 的 8 位 编码 ;3 与 ASCI 兼容 〈 纯 ASCI 文本 是 有 效 的 UTE-8 X 
本 a 








3W3Techs 发 布 的 “Usage of character encodings for 

websites” (https://w3techs.com/technologies/overview/character_encoding/all) 报告 指出 ， 截 至 2014 年 9 月 ，81.4% 的 网 站 
使 用 UTF-8; 而 Built With 发 布 的 “Encoding Usage Statistics” (http//trends.builtwith.com/encoding) 估计 的 比例 则 是 
79.4% 。 


























utf-16le 


UTF-16 的 16 位 编码 方案 的 一 种 形式 ;所 有 UTF-16 支持 通过 转 义 序列 〈 称 为 “代理 
对 ”，surrogate pair) 表示 超过 U+FFFF 的 码 位 。 








Oc 
系统 中 仍 在 使 用 ， 但 是 支持 的 最 大 码 位 是 UHFFFF。 从 Unicode 6.3 起 ， 分 配 的 码 位 中 
有 超过 50% 在 U+10000 以 上 ， 包 括 逐 渐 流 行 的 表情 符号 〈emoji pictograph) 。 


概述 常规 的 编码 之 后 ， 下 面 要 处 理 编 码 和 解码 过 程 中 存在 的 问题 。 


























4.4 了 解 编 解 码 问题 


虽然 有 个 一 般 性 的 UnicodeError 异常 ， 但 是 报告 错误 时 几乎 都 会 指明 具体 的 异 

常 : UnicodeEncodeError〔 把 字符 串 转 换 成 二 进 制 序列 时 ) 或 
UnicodeDecodeError〔 把 二 进 制 序列 转换 成 字符 串 时 ) 。 如 果 源 码 的 编码 与 预期 不 符 ， 
加 载 Python 模块 时 还 可 能 抛 出 SyntaxError。 接 下 来 的 几 节 说 明 如 何 处 理 这 些 错误 。 



































AI 出 现 与 Unicode 有 关 的 错误 时 ， 首 先 要 明确 异常 的 类 型 。 导 致 编码 问题 的 是 
UnicodeEncodeError. UnicodeDecodeError, i87e4 SyntaxError 的 其 他 错 
误 ? 解决 问题 之 前 必须 清楚 这 一 点 。 

















4.4.1 处 理 UnicodeEncodeError 


多 数 非 UTF 编 解 码 器 只 能 处 理 Unicode 字符 的 一 小 部 分 子 集 。 把 文本 转换 成 字 节 序列 

时 ， 如 果 目 标 编码 中 没有 定义 某 个 字符 ， 那 就 会 抛 出 UnicodeEncodeError 异常 ， 除 非 

Coe 参数 传 给 编码 方法 或 函数 ， 对 错误 进行 特殊 处 理 。 处 理 错 误 的 方式 如 示例 4-6 
Zo 


示例 4-6 编码 成 字 节 序列 : 成 功 和 错误 处 理 
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>>> city = 'São Paulo' 
>>> city.encode('utf_8') @ 
b'S\xc3\xa30 Paulo' 
>>> city.encode('utf_16') 
b'\xff\xfeS\x00\xe3\x000\x80 \x@OP\x0a\x80u\x001\x0G0\xed' 
>>> city.encode('iso8859 1') @ 
b'S\xe30 Paulo' 
>>> city.encode('cp437') © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/.../1ib/python3.4/encodings/cp437.py", line 12, in encode 
return codecs.charmap_encode(input, errors, encoding map) 
UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in 
position 1: character maps to <undefined> 
>>> city.encode('cp437', errors='ignore') @ 
b'So Paulo' 
>>> city.encode('cp437', errors='replace') © 
b'S?o Paulo’ 
>>> city.encode('cp437', errors='xmlcharrefreplace') © 
b'São Paulo’ 


























Q 'utf_?' 编码 能 处 理 任何 字符 串 
@ 'iso8859_1' 编码 也 能 处 理 字符 串 'sao Paulo’. 


© 'cp437' 无 法 编码 '3' 〔( 带 波形 符 的 “a”) 。 默 认 的 错误 处 理 方式 "strict' 抛 出 


UnicodeEncodeError. 


U 


o 





















































@error='ignore' 处 理 方式 悄 无 声息 地 跳 过 无 法 编码 的 字符 ; 这 样 做 通常 很 是 不 妥 。 


O 编码 时 指定 error='replace'， 把 无 法 编码 的 字符 替换 成 '?'; 数据 损坏 了 ， 但 是 用 
户 知道 出 了 问题 。 


QO 'xmlcharrefreplace' 把 无 法 编码 的 字符 替换 成 XML 实体 。 

















` 编 解码 器 的 错误 处 理 方式 是 可 扩展 的 。 你 可 以 为 errors 参数 注册 额外 的 字符 
串 ， 方 法 是 把 一 个 名 称 和 一 个 错误 处 理 函 数 传 给 codecs .register_error 函数 。 
参见 codecs.register_error 函数 的 文档 
(https://docs.python.org/3/library/codecs.html#codecs.register error) 。 




















4.4.2 ”人 处理 UnicodeDecodeError 


不 是 每 一 个 字 节 都 包含 有 效 的 ASCI 字符 ， 也 不 是 每 一 个 字符 序列 都 是 有 效 的 UTF-8 或 
UTF-16。 因 此 ， 把 二 进 制 序列 转换 成 文本 时 ， 如 果 假 设 是 这 两 个 编码 中 的 一 个 ， 遇 到 无 
法 转换 的 字 节 序列 时 会 抛 出 UnicodeDecodeError。 


























另 一 方面 ， 很 多 陈旧 的 8 位 编码 一 一 如 "cp1252'、'iso8859 1' Ñ 'koi8_r' 能 解 
码 任何 字 节 序列 流 而 不 抛 出 错误 ， 例 如 随机 噪声 。 因 此 ， 如 果 程 序 使 用 错误 的 8 位 编码 ， 
解码 过 程 悄 无 声息 ， 而 得 到 的 是 无 用 输出 。 








iS 








AI 乱码 字符 称 为 鬼 符 (gremlin) BK mojibake (SHI, “变形 文本 ”的 日 文 ) 。 
示例 4-7 演示 了 使 用 错误 的 编 解码 器 可 能 出 现 鬼 符 或 抛 出 UnicodeDecodeError。 
示例 4-7 把 字 节 序列 解码 成 字符 串 : 成 功 和 错误 处 理 
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>>> octets = b'Montr\xe9al' © 
>>> octets.decode('cp1252') @ 
‘Montréal’ 

>>> octets.decode('iso8859_7') © 
"Montrial' 

>>> octets.decode('koi8 r') @ 
"Montryal 

>>> octets.decode('utf 8') © 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
UnicodeDecodeError: ‘utf-8' codec can't decode byte @xe9 in position 5: 
invalid continuation byte 
>>> octets.decode('utf_8', errors='replace') QO 
"Montral' 





@ 这 些 字 节 序列 是 使 用 latinl 编码 的 “Montréal”*; '\xe9' 字 节 对 应 “6”。 


四 可 以 使 用 'cp1252' (Windows 1252) 解码 ， 因 为 它 是 latini 的 有 效 超 集 。 























© ISO-8859-7 用 于 编码 希腊 文 ， 因 此 无 法 正确 解释 '\xe9' 字 节 ， 而 且 没 有 抛 出 错误 。 
O KOI8-R 用 于 编码 俄 文 ; 这 里 ，'\xe9 ' Ha Pe REET”. 
O 'utf 8' 编 解码 器 检测 到 octets 不 是 有 效 的 UTF-8 字符 串 ， 抛 出 


UnicodeDecodeError. 
































O 使 用 ‘replace’ 错误 处 理 方式 ，\xe9 替换 成 了 “@”( 码 位 是 UHFFFD) ， 这 是 官方 指 
定 的 REPLACEMENT CHARACTER (HHF) ， 表 示 未 知 字符 。 





4.4.3 ”使 用 预期 之 外 的 编码 加 载 模块 时 抛 出 的 SyntaxError 


Python 3 默认 使 用 UTF-8 编码 源码 ，Python 2 从 2.5 开始 ) 则 默认 使 用 ASCI。 如 果 加 载 
的 .py 模块 中 包含 UTF-8 之 外 的 数据 ， 而 且 没 有 声明 编码 ， 会 得 到 类 似 下 面 的 消息 : 

















SyntaxError: Non-UTF-8 code starting with '\xe1' in file ola.py on line 
1, but no encoding declared; see http://python.org/dev/peps/pep-9263/ 
for details 








GNU/Linux 和 OS X 系统 大 都 使 用 UTF-8， 因 此 打开 在 Windows 系统 中 使 用 cp1252 编码 
的 .py 文件 时 可 能 发 生 这 种 情况 。 注 意 ， 这 个 错误 在 Windows 版 Python 中 也 可 能 会 发 
生 ， 因 为 Python 3 为 所 有 平台 设置 的 默认 编码 都 是 UTF-8。 

为 了 修正 这 个 问题 ， 可 以 在 文件 顶部 添加 一 个 神奇 的 coding 注释 ， 如 示例 4-8 所 示 。 


示例 4-8 ola.py:“ 你 好 ， 世 界 ! ”的 葡萄 牙 语 版 














# coding: cp1252 


print('Olá, Mundo!') 








AI SE, Python 3 的 源码 不 再 限于 使 用 ASCI， 而 是 默认 使 用 优秀 的 UTF-8 编 
码 ， 因 此 要 修正 源码 的 陈旧 编码 (如 'cp1252') 问题 ， 最 好 将 其 转换 成 UTF-8， 别 
EPRI coding 注释 。 如 果 你 用 的 编辑 器 不 支持 UTF-8， 那 么 是 时 候 换 一 个 了 。 
源码 中 能 不 能 使 用 非 ASCH 名 称 


Python 3 允许 在 源码 中 使 用 非 ASCII 标识 符 : 





























>>> ação = 'PBR' # ação = stock 
>>> € = 10**-6 # € = epsilon 














有 些 人 不 喜欢 这 么 做 。 支 持 始终 使 用 ASCII 标识 符 的 人 认为 ， 这 样 便于 所 有 人 阅读 和 
编辑 代码 。 这 些 人 没 切 中 要 害 : 源码 应 该 便于 目标 群体 阅读 和 编辑 ， 而 不 是 “所 有 


























人 ”。 如 果 代 码 属 于 跨国 公司 ， 或 者 是 开源 的 ， 想 让 来 自 世 界 各 地 的 人 作 贡 献 ， 那 么 
标识 符 应 该 使 用 英语 ， 也 就 是 说 只 能 使 用 ASCI 字符 。 


但 是 ， 如 果 你 是 巴西 的 一 位 老师 ， 那 么 使 用 葡萄 牙 语 正确 拼写 变量 和 函数 名 更 便于 学 
生 阅读 代码 。 而 且 ， 这 些 学 生 在 本 地 化 的 键盘 中 不 难 打出 变 音符 号 和 重音 元 音字 母 。 


现在 ，Python 能 解析 Unicode 名 称 ， 而 且 源 码 的 默认 编码 是 UTF-8， 我 觉得 没有 任何 
理由 使 用 不 带 重音 符号 的 葡萄 牙 语 编写 标识 符 。 在 Python 2 中 确实 不 能 这 么 做 ， 除 非 
你 也 想 使 用 Python 2 运行 代码 ， 否 则 不 必 如 此 。 如 果 使 用 葡 稀 牙 语 命 名 标识 符 却 不 带 
音符 号 的 话 ， 这 样 写 出 的 代码 对 任何 人 来 说 都 不 易 阅 读 。 


这 是 我 作为 说 葡 欧 牙 语 的 巴西 人 的 观点 ， 不 过 我 相信 也 适用 于 其 他 国家 和 文化 : 选择 
对 团队 而 言 易 于 阅读 的 人 类 语言 ， 然 后 使 用 正确 的 字符 拼写 。 


假如 有 个 文本 文件 ， 里 面 保存 的 是 源码 或 诗句 ， 但 是 你 不 知道 它 的 编码 。 如 何 僵 明 真正 的 
编码 呢 ? 下 一 节 使 用 一 个 推荐 的 库 回 答 这 个 问题 。 


4.4.4 ”如 何 找 出 字 市 序列 的 编码 
如 何 找 出 字 节 序列 的 编码 ? 简单 来 说 ， 不 能 。 必 须 有 人 告诉 你 。 


有 些 通信 协议 和 文件 格式 ， 如 HTTP 和 XML， 包含 明 确 指明 内 容 编码 的 首部 。 可 以 肯定 
的 是 ， 某 些 字 节 流 不 是 ASCI， 因 为 其 中 包含 大 于 127 的 字 节 值 ， 而 且 制 定 UTF-8 和 
UTF-16 的 方式 也 限制 了 可 用 的 字 节 序列 。 不 过 即便 如 此 ， 我 们 也 不 能 根据 特定 的 位 模式 
来 100% 确定 二 进 制 文件 的 编码 是 ASCH 或 UTF-8。 


然而 ， 就 像 人 类 语言 也 有 规则 和 限制 一 样 ， 只 要 假定 字 节 流 是 人 类 可 读 的 纯 文 本 ， 就 可 能 
通过 试探 和 分 析 找 出 编码 。 例 如 ， 如 果 b'\xee' 字 节 经 常 出 现 ， 那 么 可 能 是 16 位 或 32 
位 编码 ， 而 不 是 8 位 编码 方案 ， 因 为 纯 文 本 中 不 能 包含 空 字符 ;如 果 字 节 序 列 
b'\x20\xee' 经 常 出 现 ， 那 么 可 能 是 UTF-16LE 编码 中 的 空格 字符 〈U+0020) ， 而 不 是 
鲜 为 人 知 的 U+2000 EN QUAD 字符 一 一 谁 知 道 这 是 什么 呢 ! 





















































































































































统一 字符 编码 侦 测 包 Chardet Chttps://pypi.python.org/pypi/chardet) 就 是 这 样 工 作 的 ， 它 能 
识别 所 支持 的 30 种 编码 。Chardet 是 一 个 Python 库 ， 可 以 在 程序 中 使 用 ， 不 过 它 也 提供 了 
命令 行 工 具 chardetect。 下 面 是 它 对 本 章 书稿 文件 的 检测 报告 : 














$ chardetect 64-text-byte.asciidoc 


64-text-byte.asciidoc: utf-8 with confidence 0.99 














二 进 制 序列 编码 文本 通常 不 会 明确 指明 自己 的 编码 ， 但 是 UTF 格式 可 以 在 文本 内 容 的 开 
头 添加 一 个 字 节 序 标记 。 人 参见 下 一 节 。 


4.4.55 BOM: 有 用 的 鬼 符 
在 示例 4-5 中 ， 你 可 能 注意 到 了 ，UTF-16 编码 的 序列 开头 有 几 个 额外 的 字 节 ， 如 下 所 


ZN: 














>>> u16 = 'El Nifio'.encode('utf_16') 


>>> U16 
b'\xff\xfeE\x001\x@@ \x@@N\x00i\x00\xf1\x800\xee' 





我 指 的 是 b'\xff\xfe'。 这 是 BOM， 即 字 节 序 标记 Cbyte-order mark) ， 指 明 编 码 时 使 
用 Intel CPU 的 小 字 节 序 。 


在 小 字 节 序 设 备 中 ， 各 个 码 位 的 最 低 有 效 字 节 在 前 面 : 字母 'E' 的 码 位 是 U+0045 (十 进 
制 数 69) ， 在 字 节 偏 移 的 第 2 位 和 第 3 位 编码 为 69 和 0。 



































>>> list(u16) 
[255, 254, 69, ©, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111, 0] 














在 大 字 节 序 CPU 中 ， 编 码 顺序 是 相反 的 ; 'E' 编码 为 0 和 69. 


为 了 避免 混淆 ，UTF-16 编码 在 要 编码 的 文本 前 面 加 上 特殊 的 不 可 见 字 符 ZERO WIDTH 
NO-BREAK SPACE (U+FEFF) 。 在 小 字 节 序 系 统 中 ， 这 个 字符 编码 为 b'\xff\xfe' (F 
进 制 数 255, 254) 。 因 为 按照 设计 ，UH+HFFFE 字符 不 存在 ， 在 小 字 节 序 编码 中 ， 字 节 序 列 
b'\xff\xfe' 必定 是 ZERO WIDTH NO-BREAK SPACE， 所 以 编 解 码 器 知道 该 用 哪个 字 节 
序 。 


UTF-16 有 两 个 变种 ，UTF-16LE， 显 式 指 明 使 用 小 字 节 序 ，UTF-16BE， 显 式 指明 使 用 大 
字 节 序 。 如 果 使 用 这 两 个 变种 ， 不 会 生成 BOM: 
























































>>> ul6le = 'El Nifio'.encode('utf_16le') 
>>> list(ul16le) 
[69, ©, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111, @] 


>>> ul6be = 'El Nifio'.encode('utf_16be' ) 
>>> list(ul6be) 
[0, 69, ©, 108, ©, 32, ©, 78, ©, 105, ©, 241, ©, 111] 




















如 果 有 BOM, UTF-16 编 解 码 器 会 将 其 过 滤 掉 ， 为 你 提供 没有 前 导 ZERO WIDTH NO- 
BREAK SPACE 字符 的 真正 文本 。 根 据 标准 ， 如 果 文 件 使 用 UTF-16 编码 ， 而 且 没 
BOM， 那 么 应 该 假定 它 使 用 的 是 UTF-16BE (大 字 节 序 ) 编码 。 然 而 ，Intel x86 架构 用 的 
是 小 字 节 序 ， 因 此 有 很 多 文件 用 的 是 不 带 BOM 的 小 字 节 序 UTF-16 编码 。 


与 字 节 序 有 关 的 问题 只 对 一 个 字 (wod) 占 多 个 字 节 的 编码 CO UTF-16 和 UTF-32) 有 
影响 。UTF-8 的 一 大 优势 是 ， 不 管 设备 使 用 哪 种 字 节 序 ， 生 成 的 字 节 序列 始终 一 致 ， 因 此 
不 需要 BOM。 尽 管 如 此 ， 某 些 Windows 应 用 (尤其 是 Notepad) 依然 会 在 UTF-8 编码 的 
文件 中 添加 BOM; 而 且 ，Excel 会 根据 有 没有 BOM 确定 文件 是 不 是 UTF-8 编码 ， 否 则 ， 
它 假设 内 容 使 用 Windows 代码 页 (codepage) 编码 。UTF-8 编码 的 U+FEFF 字符 是 一 个 三 
字 节 序列 : b'\Xxef\xbb\xbf' 。 因 此 ， 如 果 文 件 以 这 三 个 字 节 开头 ， 有 可 能 是 带 有 BOM 
的 UTF-8 文件 。 然 而 ，Python 不 会 因为 文件 以 b' \xef\xbb\xbf ' 开头 就 自动 假定 它 是 
UTF-8 编码 的 。 


下 面 换个 话题 ， 讨 论 Python 3 处 理 文本 文件 的 方式 。 
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4.5 处 理 文 本 文件 


处 理 文本 的 最 佳 实践 是 “Unicode 三 明治 ”( 如 图 4-2 所 示 ) 。4 意思 是 ， 要 尽早 把 输入 〔 例 
如 读 取 文件 时 ) 的 字 节 序列 解码 成 字符 串 。 这 种 三 明治 中 的 “肉片 ”是 程序 的 业务 逻辑 ， 在 
这 里 只 能 处 理 字符 串 对 象 。 在 其 他 处 理 过 程 中 ， 一 定 不 能 编码 或 解码 。 对 输出 来 说 ， 则 要 
尽量 晚 地 把 字符 串 编码 成 字 节 序列 。 多 数 Web 框架 都 是 这 样 做 的 ， 使 用 框架 时 很 少 接触 
字 节 序列 。 例 如 ， 在 Django 中 ， 视 图 应 该 输出 Unicode 字符 串 ; Django 会 负责 把 响应 编 
码 成 字 节 序 列 ， 而 且 默 认 使 用 UTF-8 编码 。 














4 我 第 一 次 见 到 “Unicode 三 明治 ”这 种 说 法 是 在 Ned Batchelder 在 US PyCon 2012 上 所 做 的 精彩 演讲 中 : “Pragmatic 
Unicode” (http//nedbatchelder.com/text/unipain/unipain.html) 。 


Unicode = H76 





-> str 解码 输入 的 字 节 序列 ， 


IOO% str sema, 





str > 编码 输出 的 文本 。 


4-2: Unicode 三 明治 


目前 处 理 文 本 的 最 佳 实践 


在 Python 3 中 能 轻松 地 采纳 Unicode 三 明治 的 建议 ， 因 为 内 置 的 open 函数 会 在 读 取 文件 
时 做 必要 的 解码 ， 以 文本 模式 写 入 文件 时 还 会 做 必要 的 编码 ， 所 以 调用 my_file.read() 
方法 得 到 的 以 及 传 给 my_file.write(text) 方法 的 都 是 字符 串 对 象 。5 























| 5Python 2.6 或 Python 2.7 用 户 要 使 用 io.open() 函数 才能 得 到 读 写 文件 时 自动 执行 的 解码 和 编码 操作 。 














可 以 看 出 ， 处 理 文本 文件 很 简单 。 但 是 ， 如 果 依 赖 默认 编码 ， 你 会 遇 到 麻烦 。 
看 一 下 示例 4-9 中 的 控制 台 会 话 。 你 能 发 现 问 题 吗 ? 


示例 4.9 一 个 平台 上 的 编码 问题 《如 果 在 你 的 机 器 上 运行 ， 它 可 能 会 发 生 ， 也 可 能 
\ 会 ) 





>>> open('cafe.txt', 'w', encoding='utf_8').write('café') 


>>> open('cafe.txt').read() 


| 'cafão' 








问题 是 ， 写 入 文件 时 指定 了 UTF-8 编码 ， 但 是 读 取 文件 时 没有 这 么 做 ， 因 此 Python 假定 
要 使 用 系统 默认 的 编码 (Windows 1252) ， 于 是 文件 的 最 后 一 个 字 节 解码 成 了 字符 
'A@' ， 而 不 是 "6' 。 


我 是 在 Windows 7 中 运行 示例 4-9 的 。 在 新 版 GNU/Linux 或 Mac OS X 中 运行 同样 的 语句 
不 会 出 问题 ， 因 为 这 几 个 操作 系统 的 默认 编码 是 UTF-8， 让 人 误 以 为 一 切 正常 。 如 果 打 开 
文件 是 为 了 写 入 ， 但 是 没有 指定 编码 参数 ， 会 使 用 区 域 设 置 中 的 默认 编码 ， 而 且 使 用 那个 
编码 也 能 正确 读 取 文件 。 但 是 ， 如 果 脚 本 要 生成 文件 ， 而 字 节 的 内 容 取 决 于 平台 或 同一 平 
台中 的 区 域 设置 ， 那 么 就 可 能 导致 兼容 问题 。 





















































A 需要 在 多 台 设 备 中 或 多 种 场合 下 运行 的 代码 ， 一 定 不 能 依赖 默认 编码 。 打 开 文 
件 时 始终 应 该 明确 传 入 encoding= 参数 ， 因 为 不 同 的 设备 使 用 的 默认 编码 可 能 不 
同 ， 有 时 隔 一 天 也 会 发 生变 化 。 

示例 4-9 中 有 个 奇怪 的 细节 : 第 一 个 语句 中 的 write 函数 报告 号 入 了 4 个 字符 ， 但 是 下 

人 

节 做 了 说 明 。 


示例 4-10 仔细 分 析 在 Windows 中 运行 的 示例 4-9， 找 出 并 修正 问题 



































>>> fp = open('cafe.txt', 'w', encoding='utf_8') 

>> fp © 

<_io.TextIOWrapper name='cafe.txt' mode='w' encoding='utf_8'> 
>>> fp.write('café') 

4 @ 

>>> fp.close() 

>>> import os 

>>> os.stat('cafe.txt').st_size 


5 © 
>>> fp2 = open('cafe.txt') 
>>> fp2 @ 


<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='cp1252'> 
>>> fp2.encoding © 

'cp1252' 

>>> fp2.read() 

‘cafho' © 

>>> fp3 = open('cafe.txt', encoding='utf_8') @ 

>>> fp3 

<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='utf_8'> 
>>> fp3.read() 

'café' 

>>> fp4 = open('cafe.txt', 'rb') © 

>>> fp4 

<_io.BufferedReader name='cafe.txt'> @ 

>>> fp4.read() © 

b'caf\xc3\xa9' 














@ 默认 情况 下 ，open 函数 采用 文本 模式 ， 返 回 一 个 TextIOWrapper 对 象 。 


四 在 Text 1OWrapper 对 象 上 调用 write 方法 返回 写 入 的 Unicode 字符 数 。 
© os.stat 报告 文件 中 有 5 个 字 节 ; UTF-8 编码 的 'é" 占 两 个 字 节 ，0xc3 和 0xa9。 


O 打开 文本 文件 时 没有 显 式 指定 编码 ， 返 回 一 个 TextIOWrapper 对 象 ， 编 码 是 区 域 设 置 
中 的 默认 值 。 


@ TextIOWrapper 对 象 有 个 encoding 属性 ; 查看 它 ， 发 现 这 里 的 编码 是 cp1252。 
































@ 在 Windows cp1252 编码 中 ，0xc3 字 节 是 “A”( 带 波形 符 的 A) ，0xa9 字 节 是 版 权 符 
写 。 











© 使 用 正确 的 编码 打开 那个 文件 。 

@ 结果 符合 预期 得 到 的 是 四 个 Unicode 字符 'café' 。 

O 'rb' 标志 指明 在 二 进 制 模式 中 读 取 文件 。 

图 返回 的 是 BufferedReader 对 象 ， 而 不 是 TextIOWrapper 对 象 。 
@@ 读 取 返 回 的 字 节 序列 ， 结 果 与 预期 相符 。 




















~ 除非 想 判 断 编码 ， 否 则 不 要 在 二 进 制 模式 中 打开 文本 文件 ， 即 便 如 此 ， 也 应 该 
使 用 Chardet， 而 不 是 重新 发 明 轮 子 〈 参 见 4.4.4 节 ) 。 常 规 代 码 只 应 该 使 用 二 进 制 模 
式 打 开 二 进 制 文件 ， 如 光栅 图 像 。 


示例 4-10 的 问题 是 ， 打 开 文 本 文件 时 依赖 默认 设置 。 默 认 设置 有 许多 来 源 ， 参 见 下 一 
“le 














编码 默认 值 : 一 团 精 


有 有 几 个 设置 对 Python VO 的 编码 默认 值 有 影响 ， 如 示例 4-11 中 的 default_encodings.py 脚本 
RAR o 


示例 4-11 探索 编码 默认 值 











import sys, locale 


expressions = """ 
locale. getpreferredencoding() 
type(my_file) 
my_file.encoding 
sys.stdout.isatty() 
sys.stdout.encoding 
sys.stdin.isatty() 
sys.stdin. encoding 
sys.stderr.isatty() 
sys.stderr.encoding 
sys.getdefaultencoding() 





sys.getfilesystemencoding() 


my_file = open('dummy', 'w') 


for expression in expressions.split(): 
value = eval(expression) 
print(expression.rjust(30), '->', repr(value)) 








TTT 


示例 4-11 Æ GNU/Linux (Ubuntu 14.04) 和 OS X (Mavericks 10.9) F Hin HIF 
些 系统 中 始终 使 用 UTF-8: 


， 表 明 这 








$ python3 default_encodings.py 
locale.getpreferredencoding() -> 'UTF-8' 
type(my_file) -> <class 
my_file.encoding -> 'UTF-8' 
sys.stdout.isatty() -> True 
sys.stdout.encoding -> 'UTF-8' 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'UTF-8' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'UTF-8' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'utf-8' 


_io.TextIOWrapper' > 








然而 ， 在 Windows 中 的 输出 有 所 不 同 ， 如 示例 4-12 所 示 。 


示例 4-12 在 Windows7 (SP1) 巴西 版 中 的 cmd.exe 中 输出 的 默认 编码 ，PowerShell 
输出 的 结果 相同 
































Z:\>chcp © 
Pagina de codigo ativa: 850 
Z:\>python default_encodings.py @ 
locale. getpreferredencoding() -> 'cp1252' © 
type(my_file) -> <class '_io.TextIOWrapper'> 
my file.encoding -> 'cp1252' @ 
sys.stdout.isatty() -> True O 
sys.stdout.encoding -> 'cp850' © 
sys.stdin.isatty() -> True 
sys.stdin.encoding -> 'cp850' 
sys.stderr.isatty() -> True 
sys.stderr.encoding -> 'cp850' 
sys.getdefaultencoding() -> 'utf-8' 
sys.getfilesystemencoding() -> 'mbcs' 








O chcp 输出 当前 控制 台 激 活 的 代码 页 ，850。 


© 运行 default_encodings.py， 把 结果 输出 到 控制 台 。 




















z 
m 


© locale.getpreferredencoding() 是 最 重要 的 





O 文本 文件 默认 使 用 locale. getpreferredencoding(). 


加 输出 到 控制 台中 ， 因 此 sys.stdout.isatty() 返回 True. 
@ AL, sys.stdout.encoding 与 控制 台 的 编码 相同 。 
如 果 把 输出 重 定向 到 文件 ， 如 下 所 示 : 











Z:\>python default_encodings.py > encodings.log 





sys.stdout.isatty() 的 返回 值 会 变 成 False，sys.stdout.encoding 会 设 为 
locale.getpreferredencoding()， 在 那 台 设 备 中 是 'cp1252'. 


注意 ， 示 例 4-12 中 有 4 种 不 同 的 编码 。 


6 


comp.python.devel 邮件 列表 中 说 Chttp//article.gmane.org/gmane.comp.python.devel/110036) , CPython 的 内 部 函数 “在 


。 如 果 打 开 文 件 时 没有 指定 encoding 参数 ， 默 认 值 由 
































locale.getpreferredencoding() 提供 (在 示例 4-12 中 是 'cp1252') 。 


e 如 果 设 定 了 PYTHONIOENCODING 环境 变量 





(https://docs.python.org/3/using/cmdline.html#envvar- 
PYTHONIOENCODING) , sys.stdout/stdin/stderr 的 编码 使 用 设 定 的 值 ， 否 
则 ， 继 承 自 所 在 的 控制 侣 ， 如 采 输 入 / 输出 重 定向 到 文件 ， 则 由 


locale.getpreferredencoding() 定义 。 




















Python 在 二 进 制 数据 和 字符 串 之 间 转 换 时 ， 内 部 使 用 sys.getdefaultencoding() 
获得 的 编码 ，Python 3 很 少 如 此 ， 但 仍 有 发 生 。s 这 个 设置 不 能 修改 。7 


sys.getfilesystemencoding() 用 于 编 解码 文件 名 (不 是 文件 内 容 ) 。 把 字符 串 

参数 作为 文件 名 传 给 open() 函数 时 就 会 使 用 它 ， 如 果 传 入 的 文件 名 参数 是 字 节 序 

列 ， 那 就 不 经 改动 直接 传 给 OS API. “Unicode HOWTO” 一 文 
Chttps://docs.python.org/3/howto/unicode.html) 中 说 :“ 在 Windows F, Python 使 用 

mbcs 这 个 名 称 引用 当前 配置 的 编码 。”MBCS 是 Multi Byte Character Set (多 字 节 字符 

集 ) 的 首 字母 缩写 ， 在 Windows 中 是 陈旧 的 变 长 编码 ， 如 gb2312 或 Shift_JIS, 

而 不 是 UTF-8。[ 关于 这 个 话题 ，Stack Overflow 中 有 一 个 很 好 的 回答 “，Difference 

between MBCS and UTF-8 on 

Windows” Chttp://stackoverflow.com/questions/3298569/difference-between-mbcs-and-utf- 

8-on-windows) o ] 


























fi 











完 这 个 话题 时 ， 我 在 Python 内 部 找 不 到 把 字 节 序列 转换 成 字符 串 的 情况 。Python 核心 开发 者 Antoine Pitrou 在 




















py3k 中 很 少 这 么 做 ”。 























7p ython 2 对 sys.setdefaultencoding 函数 的 使 用 方式 不 当 ，Python 3 的 文档 中 已 经 没有 这 个 函数 。 这 个 函数 是 供 核 


心 开发 者 使 用 的 ， 用 于 在 内 部 的 默认 编码 未 定时 设置 编码 。 在 comp.python.devel 邮件 列表 的 那个 话题 中 
Chttp//article.gmane.org/gmane.comp.python.devel/109916) , Marc-André Lemburg 说 ， 用 户 代 码 一 定 不 能 调 

























































































sys.setdefaultencoding 函数 ， 而 且 对 CPython 来 说 ， 它 的 值 在 Python 2 中 只 能 是 'ascii'， 在 Python 3 中 只 能 是 
'utf-8'. 

















iN 在 GNU/Linux 和 OSX 中， 这 些 编码 的 默认 值 都 是 UTF-8， 而 且 多 年 来 都 是 如 
此 ， 因 此 VO 能 处 理 所 有 Unicode 字符 。 在 Windows 中 ， 不 仅 同 一 个 系统 中 使 用 不 同 
的 编码 ， 还 有 只 支持 ASCI 和 127 个 额外 的 字符 的 代码 页 〈 如 "cp856 ' 或 
'cp1252' ) ， 而 且 不 同 的 代码 页 之 间 增 加 的 字符 也 有 所 不 同 。 因 此 ， 若 不 多 加 小 
>, Windows 用 户 更 容易 过 到 编码 问题 。 












































综 上 ，locale.getpreferredencoding() 返回 的 编码 是 最 重要 的 : 这 是 打开 文件 的 默 
认 编 码 ， 也 是 重 定向 到 文件 的 sys .stdout/stdin/stderr 的 默认 编码 。 然 而 ， 文 档 也 
说 道 ( 摘 录 部 

I, https://docs.python.org/3/library/locale.html#locale.getpreferredencoding) : 


locale.getpreferredencoding(do_setlocale=True) 


根据 用 户 的 偏好 设置 ， 返 回 文本 数据 的 编码 。 用 户 的 偏好 设置 在 不 同系 统 中 的 设 定 方 
式 不 同 ， 而 且 在 某 些 系 统 中 可 能 无 法 通过 编程 方式 设置 ， 因 此 这 个 函数 返回 的 只 是 猜 
测 的 编码 .……. 


因此 ， 关 于 编码 默认 值 的 最 佳 建议 是 : 别 依赖 默认 值 。 


如 果 遵 从 Unicode 三 明治 的 建议 ， 而 且 始 终 在 程序 中 显 式 指定 编码 ， 那 将 避免 很 多 问题 。 
可 惜 ， 即 使 把 字 节 序列 正确 地 转换 成 字符 串 ，Unicode 仍 有 不 尽 如 人 意 的 地 方 。 接 下 来 的 
两 节 讨 论 的 话题 对 ASCH 世界 来 说 很 简单 ， 但 是 在 Unicode 领域 就 变 得 相当 复杂 : 文本 规 
范 化 〈 即 为 了 比较 而 把 文本 转换 成 统一 的 表述 ) 和 排序 。 


















































4.6 为 了 正确 比较 而 规范 化 Unicode 字 符 串 


因为 Unicode 有 组 合 字符 ( 变 音符 号 和 附加 到 前 一 个 字符 上 的 记号 ， 打 印 时 作为 一 个 整 
体 ) ， 所 以 字符 串 比较 起 来 很 复杂 。 


例如 ，“café” 这 个 词 可 以 使 用 两 种 方式 构成 ， 分 另 














I 有 4 个 和 5 个 码 位 ， 但 是 结果 完全 一 





>>> s1 = 'café' 
>>> s2 = 'cafe\u0301' 
>>> s1, s2 


('café', 'café') 

>>> len(s1), len(s2) 
(4, 5) 

>>> s1 == s2 

False 








U+0301 是 COMBINING ACUTE ACCENT， 加 在 “e”* 后 面 得 到 “6”。 在 Unicode 标准 中 ， 'é' 
和 'e\u8381' 这 样 的 序列 叫 “标准 等 价 物 ”(canonical equivalent) ， 应 用 程序 应 该 把 它们 
视 作 相同 的 字符 。 但 是 ，Python 看 到 的 是 不 同 的 码 位 序列 ， 因 此 判定 二 者 不 相等 。 


这 个 问题 的 解决 方案 是 使 用 unicodedata.normalize 函数 提供 的 Unicode 规范 化 。 这 个 
函数 的 第 一 个 参数 是 这 4 个 字符 串 中 的 一 个 :'NFC'、'NFD'、'NFKC' 和 'NFKD'。 下 面 
先 说 明 前 两 个 。 

NFC (Normalization FormC) 使 用 最 少 的 码 位 构成 等 价 的 字符 串 ， 而 NFD 把 组 合 字符 分 
解 成 基 字 符 和 单独 的 组 合 字符 。 这 两 种 规范 化 方式 都 能 让 比较 行为 符合 预期 : 





























>>> from unicodedata import normalize 

>>> sl = 'café' # 把 "e" 和 重音 符 组 合 在 一 起 

>>> s2 = 'cafe\u8381' # 分 解 成 "e" 和 重音 符 

>>> len(s1), len(s2) 

(4, 5) 

>>> len(normalize('NFC', s1)), len(normalize('NFC', s2)) 
(4, 4) 

>>> len(normalize('NFD', s1)), len(normalize('NFD', s2)) 
(5, 5) 

>>> normalize('NFC', s1) == normalize('NFC', s2) 

True 

>>> normalize('NFD', s1) == normalize('NFD', s2) 

True 























西方 键盘 通常 能 输出 组 合 字符 ， 因 此 用 户 输入 的 文本 默认 是 NFC 形式 。 不 过 ， 安 全 起 

见 ， 保 存 文本 之 前 ， 最 好 使 用 normalize('NFC', user_text) 清洗 字符 串 。NFC 也 是 

W3C 的 “Character Model for the World Wide Web: String Matching and Searching” 规 范 
Chttps://www.w3.org/TR/charmod-norm/) 推荐 的 规范 化 形式 。 


使 用 NFC 时 ， 有 些 单字 符 会 被 规范 成 妨 一 个 单字 符 。 例 如 ， 电 阻 的 单位 欧姆 〈9) 会 被 
规范 成 希腊 字母 大 写 的 欧米 加 。 这 两 个 字符 在 视觉 上 是 一 样 的 ， 但 是 比较 时 并 不 相等 ， 




















>>> from unicodedata import normalize, name 
>>> ohm = '\u2126' 

>>> name(ohm) 

"OHM SIGN' 

>>> ohm_c = normalize('NFC', ohm) 

>>> name(ohm_c) 

"GREEK CAPITAL LETTER OMEGA 


>>> ohm == ohm_c 

False 

>>> normalize('NFC', ohm) == normalize('NFC', ohm_c) 
True 








在 另外 两 个 规范 化 形式 (NFKC 和 NFKD) 的 首 字 母 缩 略 词 中 ， 字 母 及 表 

示 “compatibilit”” (GRATE) 。 这 两 种 是 较 严 格 的 规范 化 形式 ， 对 “兼容 字符 ”有 影响 。 虽 
然 Unicode 的 目标 是 为 各 个 字符 提供 “规范 的 ” 码 位 ， 但 是 为 了 兼容 现 有 的 标准 ， 有 些 字符 
会 出 现 多 次 。 例 如 ， 虽 然 希腊 字母 表 中 有 “jw”* 这 个 字母 ( 码 位 是 Ut+03BC，GREEK SMALL 
LETTER MU) ， 但 是 Unicode 还 是 加 入 了 微 符号 'h' CU+00BS) ， 以 便 与 1atin1 相互 转 
换 。 因 此 ， 微 符号 是 一 个 “兼容 字符 ”。 


在 NFKC 和 NFKD 形式 中 ， 各 个 兼容 字符 会 被 蔡 换 成 一 个 或 多 个 “兼容 分 解 ?字符 ， 即 便 
这 样 有 些 格式 损失 ， 但 仍 是 “首选 "表述 一 一 理想 情况 下 ， 格 式 化 是 外 部 标记 的 职责 ， 不 应 
该 由 Unicode 处 理 。 下 面 举 个 例子 。 二 分 之 一 '%' (U+00BD) 经 过 兼容 分 解 后 得 到 的 是 
三 个 字符 序列 '1/2'; 微 符号 'h' (U+00B5) 经 过 兼容 分 解 后 得 到 的 是 小 写字 母 

'u' (U+03BC) 。 8 























































































































































































































8 微 符号 是 “兼容 字符 ”， 而 欧姆 符号 不 是 ， 这 还 真是 奇怪 。 因 此 ，NFC 不 会 改动 微 符 号 ， 但 是 会 把 欧姆 符号 改 成 大 写 
的 欧米 加 ; 而 NFKC 和 NFKD 会 把 欧姆 和 微 符号 都 改 成 其 他 字符 。 






































下 面 是 NFKC 的 具体 应 用 : 


>>> from unicodedata import normalize, name 


>>> half = '%' 

>>> normalize('NFKC', half) 

"1/2" 

>>> four_squared = '4?' 

>>> normalize('NFKC', four_squared) 
'42' 

>>> micro = 'p' 


>>> micro_kc = normalize('NFKC', micro) 
>>> micro, micro_kc 

(Ch "B') 

>>> ord(micro), ord(micro_kc) 

(181, 956) 

>>> name(micro), name(micro_kc) 

('MICRO SIGN', ‘GREEK SMALL LETTER MU') 




















使 用 '1/2' 蔡 代 '%' 可 以 接受 ， 微 符号 也 确实 是 小 写 的 希腊 字母 u, EHE '42' 转换 
成 '42' 就 改变 原意 了 。 某 些 应 用 程序 可 以 把 '42 ' 保存 为 '4<sup>2</sup>'， 但 是 
normalize 函数 对 格式 一 无 所 知 。 因 此 ，NFKC 或 NFKD 可 能 会 损失 或 曲解 信息 ， 但 是 
可 以 为 搜索 和 索引 提供 便利 的 中 间 表 述 : 用 户 搜索 '1 / 2 inch' 时 ， 如 果 还 能 找到 包 
































E'A inch’ 的 文档 ， 那 么 用 户 会 感到 满意 。 








全、 使 用 NFKC 和 NFKD 规范 化 形式 时 要 小 心 ， 而 且 只 能 在 特殊 情况 中 使 用 ， 例 
如 搜索 和 索引 ， 而 不 能 用 于 持久 存储 ， 因 为 这 两 种 转换 会 导致 数据 损失 。 


为 搜索 或 索引 准备 文本 时 ， 还 有 一 个 有 用 的 操作 ， 即 下 一 节 讨论 的 大 小 写 折 鞋 。 








461 大 小 写 折 靶 


大 小 写 折 车 其 实 就 是 把 所 有 文本 变 成 小 写 ， 再 做 些 其 他 转换 。 这 个 功能 由 
str.casefold() 方法 (Python 3.3 新 增 ) 文 持 。 

















对 于 只 包含 latin1 字符 的 字符 串 s, s.casefold() 得 到 的 结果 与 s.lower() 一 样 ， 唯 
有 两 个 例外 : 微 符号 'p' 会 变 成 小 写 的 希腊 字母 “jw*”( 在 多 数字 体 中 二 者 看 起 来 一 样 〉; 


德语 Eszett (“sharp s”, B) 会 变 成 “ss”。 





>>> micro = ‘p' 

>>> name(micro) 

"MICRO SIGN' 

>>> micro_cf = micro.casefold() 
>>> name(micro_cf) 

"GREEK SMALL LETTER MU' 

>>> micro, micro_cf 

(CH "B') 

>>> eszett = 'R' 

>>> name(eszett) 

"LATIN SMALL LETTER SHARP S' 
>>> eszett_cf = eszett.casefold() 
>>> eszett, eszett_cf 

('B', ‘ss') 








自 Python 3.4 jf, str.casefold() 和 str.lower() 得 到 不 同 结果 的 有 116 个 码 位 。 
Unicode 6.3 命名 了 110 122 个 字符 ， 这 只 占 0.11%。 


与 Unicode 相关 的 任何 问题 一 样 ， 大 小 写 折 县 是 个 复杂 的 问题 ， 有 很 多 语言 上 的 特 丈 情 
况 ， 但 是 Python 核心 团队 尽力 提供 了 一 种 方案 ， 能 满足 大 多 数 用 户 的 需求 。 


接 下 来 的 几 节 将 使 用 这 些 规范 化 知识 来 开发 几 个 实用 的 函数 。 


4.6.2 ”规范 化 文本 匹配 实用 函数 


由 前 文 可 知 ，NFC 和 NFD 可 以 放心 使 用 ， 而 且 能 合理 比较 Unicode 字符 串 。 对 大 多 数 应 
用 来 说 ，NFC 是 最 好 的 规范 化 形式 。 不 区 分 大 小 写 的 比较 应 该 使 用 str.casefold()。 


如 果 要 处 理 多 语言 文本 ， 工 具 箱 中 应 该 有 示例 4-13 中 的 nfc_equal 和 fold_equal Ñ 



























































示例 4-13 normeq.py: 比较 规范 化 Unicode 字符 串 








Utility functions for normalized Unicode string comparison. 


Using Normal Form C, case sensitive: 


>>> s1 = ‘café’ 

>>> s2 = 'cafe\ue@30e1' 
>>> s1 == s2 

False 

>>> nfc_equal(s1, s2) 
True 

>>> nfc_equal('A', 'a') 
False 


Using Normal Form C with case folding: 


>>> s3 = 'Straße' 

>>> s4 = 'strasse' 

>>> S3 == S4 

False 

>>> nfc_equal(s3, s4) 
False 

>>> fold_equal(s3, s4) 
True 

>>> fold_equal(s1, s2) 
True 

>>> fold_equal('A', 'a') 
True 


from unicodedata import normalize 


def nfc_equal(stri1, str2): 
return normalize('NFC', str1) == normalize('NFC', str2) 


def fold_equal(stri1, str2): 
return (normalize('NFC', str1).casefold() == 
normalize('NFC', str2).casefold()) 











除了 Unicode SHY HM KD S it (Fhe Unicode 标准 的 一 部 分 ) 之 外 ， 有 时 需要 进 
人 











4.6.3 ”极端 规范化"， 去 掉 变 音符 号 


Google 搜索 涉及 很 多 技术 ， 其 中 一 个 显然 是 忽略 变 音符 号 (如 重音 符 、 下 加 符 等 ) ， 至 
少 在 某 些 情 况 下 会 这 么 做 。 去 掉 变 音符 号 不 是 正确 的 规范 化 方式 ， 因 为 这 往往 会 改变 词 的 
意思 ， 而 且 可 能 误 判 搜索 结果 。 但 是 对 现实 生活 却 有 所 帮助 : 人 们 有 时 很 懒 ， 或 者 不 知道 
人 


除了 搜索 ， 去 掉 变 音符 号 还 能 让 URL 更 易于 阅读 ， 至 少 对 拉丁 语系 语言 是 如 此 。 下 面 是 
维基 百科 中 介绍 圣保罗 市 (Sado Paulo) 的 文章 的 URL: 
















































































http: //en.wikipedia.org/wiki/S%C3%A30_Paulo 


FEA, “%C3%A3”" xe UTF-8 编码 “全 字母 〈 带 有 波形 符 的 “a”) 转 义 后 得 到 的 结果 。 下 述 形 











式 更 友好 ， 尽 管 拼写 是 错误 的 ; 














http://en.wikipedia.org/wiki/Sao_Paulo 














如 果 想 把 字符 串 中 的 所 有 变 音 符号 都 去 把 ， 可 以 使 用 示例 4-14 中 的 函数 。 




















示例 4-14 去掉 全 部 组 合 记 号 的 函数 〈 在 sanitize.py 模块 中 ) 





import unicodedata 
import string 


def shave _marks(txt): 








"…" 去 掉 全 部 变 音符 号 """ 
norm txt = unicodedata.normalize('NFD', txt) © 
shaved = ''.join(c for c in norm_txt 


if not unicodedata.combining(c)) @ 
return unicodedata.normalize('NFC', shaved) © 











@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记号 。 
O 过 滤 掉 所 有 组 合 记号 。 
O 重组 所 有 字符 。 
示例 4-15 是 shave_marks 函数 的 两 个 使 用 示例 。 
示例 4-15 示例 4-14 中 shave_marks 函数 的 两 个 使 用 示例 





























>>> order = '“Herr VoB: e % cup of OEtker™ caffè latte 。 bowl of acai.”' 


>>> shave_marks(order) 

"“Herr VoR: e % cup of OEtker™ caffe latte e bowl of acai.”' © 
>>> Greek = 'Z€mupoc, Zéfiro' 

>>> shave_marks (Greek) 

'Zedupoc, Zefiro' @ 








(1) 只 替换 了 “é 9966 CPR = EFF 
Oe ABV T 








示例 4-14 中 定义 的 shave_marks 函数 使 用 起 来 没 问题 ， 但 是 也 许 做 得 太 多 了 。 通 常 ， 去 

















丁字 符 《〈 如 希腊 字母 ) ， 而 只 去 丰 





卓 重音 








掉 变 音符 号 是 为 了 把 拉丁 文本 变 成 纯粹 的 ASCII， 但 是 shave_marks 函数 还 会 修改 非 拉 


符 并 不 能 把 它们 变 成 ASCI 字符 。 因 此 ， 我 们 应 该 











分 析 各 个 基 字 符 ， 仪 当 字 符 在 拉丁 字母 表 中 时 才 删 除 附加 的 记号 ， 如 示例 4-16 所 示 。 








示例 4-16 删除 拉丁 字母 中 组 合 


14 中 定义 的 sanitize.py 模块 的 一 部 分 ) 





记号 的 函数 (import 语句 省 略 了 ， 





因为 这 是 示例 4- 





def shave_marks_latin(txt): 
""" 把 拉丁 基 字 符 中 所 有 的 变 音 


wr. Ars EL 





latin_base = False 
keepers = [] 
for c in norm_txt: 


if unicodedata.combining(c) and latin_base: 
continue # 忽略 拉丁 基 字 符 上 的 3 














keepers. Poa 
# 如 果 不 是 组 合 字符 ， 

















shaved = ''.join(keepers) 


return unicodedata.normalize('NFC', shaved) 


i 符号 删除 """ 
norm txt = unicodedata.normalize('NFD', 


那 就 是 新 的 基 字 符 
if not tind codedatay combining(c): 
latin_base = c in string.ascii_letters 


ote Ae 口 


首付 与 


txt) 0 


(2) 
© 











@ 把 所 有 字符 分 解 成 基 字 符 和 组 合 记 
O 基 字 符 为 拉丁 字母 时 ， 跳 过 组 合 记 

















人 否则， 保存 当前 字符 。 








© 检测 新 的 基 字 符 ， 判 断 是 不 是 拉丁 字母 。 





O 重组 所 有 字符 。 








更 彻底 的 规范 化 步骤 是 把 西 文 文本 中 的 常见 符号 





I 44: -E 





B55 Kits. WARS, & 





等 ) 替换 成 ASCI 中 的 对 等 字符 。 示 例 4-17 中 的 asciize 函数 就 是 这 么 做 的 。 





示例 4-17 把 一 些 西 文 印刷 字 
sanitize.py 模块 的 一 部 分 ) 


符 转 换 成 ASCI 字符 (这 个 代码 片段 也 是 示例 4-14 中 


于 





single_map = str.maketrans(""" 


wiewkAg rin 


multi aps = str.maketrans({ @ 


Eri ‘euro: 5 

es i ar 

'OE' "OE" A 

tm. "(TM)", 

'oe': ‘oe’, 

"t': ‘<per mille>', 
fh; eT 


}) 
multi_map.update(single map) © 
def dewinize(txt) : 


"把 win1252 符 号 蔡 换 成 AsCII 字 符 或 序列 ” 
return txt.translate(multi_map) @ 





sag CICI ~ Ome 
sft < Sos? 


ween" 


") 


3 


0 








def asciize(txt): 
no_marks = shave_marks_latin(dewinize(txt) ) O 
no_marks = no_marks.replace('R', 'ss') 
return unicodedata.normalize('NFKC', no_marks) @ 





符 的 映射 表 。 
符 串 的 映射 表 。 
O 合并 两 个 映射 表 。 








@ dewinize 函数 不 影响 ASCII BK latini 文本 ， 只 替换 Microsoft 在 cp1252 中 为 


latin1 额外 添加 的 字符 。 


@ 调用 dewinize 函数 ， 然 后 去 掉 变 音符 号 











ihe 


@ 把 德语 Eszett 蔡 换 成 “ss”( 这 里 没有 使 用 大 小 写 折 县， 因为 我 们 想 保 留 大 小 写 )。 














O 使 用 NFKC 规范 化 形式 把 字符 和 与 之 兼容 的 码 位 组 合 起 来 。 
示例 4-18 是 asciize 函数 的 使 用 示例 。 
示例 4-18 示例 4-17 中 asciize 函数 的 使 用 示例 








>>> order = '“Herr Voß: e % cup of OEtker™ caffè latte 。 bowl of acai.”' 
>>> dewinize(order) 


‘Herr VoR: - % cup of OEtker(TM) caffè latte - bowl of acai."' © 
>>> asciize(order) 
'"Herr Voss: - 1/2 cup of OEtker(TM) caffe latte - bowl of acai."' @ 





Q dewinize 函数 替换 弯 引 号 、 项 目 符号 和 Trx (商标 符号 ) 。 


@ asciize 函数 调用 dewinize 函数 ， 去 掉 变 音符 号 ， 还 会 替换 'B'。 





Bx 不 同 语言 删除 变 音 符号 的 规则 也 有 所 不 同 。 例 如 ， 德 语 把 "总 ue" š 














我 们 定义 的 asciize 函数 没 这 么 精确 ， 因 此 可 能 适合 你 的 语言 ， 也 可 能 
过 ， 它 对 葡萄 牙 语 的 处 理 是 可 接受 的 。 

















综 上 ，sanitize.py 中 的 函数 做 的 事情 超出 了 标准 的 规范 化 ， 而 且 会 对 文本 做 进一步 处 理 





合 。 % 




















很 有 可 能 会 改变 原意 。 只 有 知道 目标 语言 、 目 标 用 户 群 和 转换 后 的 用 途 ， 才 能 
做 这 么 深入 的 规范 化 。 


我 们 对 Unicode 文本 规范 化 的 讨论 到 此 结束 。 
接 下 来 要 解决 的 Unicode 问题 是 .……. 排序 。 




















-> 











定 要 不 要 











4.7 Unicode <A FEF 


Python 比较 任何 类 型 的 序列 时 ， 会 一 一 比较 序列 里 的 各 个 元 素 。 对 字符 串 来 说 ， 比 较 的 是 
码 位 。 可 是 在 比较 非 ASCI 字符 时 ， 得 到 的 结果 不 尽 如 人 意 。 


下 面 对 一 个 生长 在 巴西 的 水 果 的 列表 进行 排序 : 




















>>> fruits = ['caju', ‘atemoia', ‘caja', ‘acai', ‘acerola'] 
>>> sorted(fruits) 
['acerola', ‘atemoia', ‘acai', ‘caju', ‘caja'] 




















不 同 的 区 域 采用 的 排序 规则 有 所 不 同 ， 葡 欧 牙 语 等 很 多 语言 按照 拉丁 字母 表 排 序 ， 重 音符 
和 么 影响 。 AIE, HEFEI caja iE“ caja”, DEHE“ caju’ ti 

















? 变 音符 号 对 排序 有 影响 的 情况 很 少 发 生 ， 只 有 两 个 词 之 间 唯 有 变 音符 号 不 同时 才 有 影响 。 此 时 ， 带 有 变 音符 号 的 词 排 
在 常规 词 的 后 面 。 


排序 后 的 fruits 列表 应 该 是 : 


['agai', ‘acerola', 'atemoia', 'cajá', ‘caju'] 





在 Python 中 ， 非 ASCI 文本 的 标准 排序 方式 是 使 用 locale.strxfrm 函数 ， 根 据 locale 
模块 的 文档 (https://docs.python.org/3/library/locale.html?highlight=strxfrm#locale.strxfrm》， 
这 个 函数 会 “把 字符 串 转 换 成 适合 所 在 区 域 进行 比较 的 形式 ”。 

使 用 locale.strxfrm 函数 之 前 ， 必 须 先 为 应 用 设 定 合适 的 区 域 设 置 ， 还 要 祈祷 操 作 系 
统 支持 这 项 设置 。 在 区 域 设 为 pt_BR 的 GNU/Linux (Ubuntu 14.04) 中， 可 以 使 用 示例 4- 
19 中 的 命令 。 


示例 4-19 使 用 locale.strxfrm 函数 做 排序 键 























>>> import locale 

>>> locale.setlocale(locale.LC_COLLATE, 'pt_BR.UTF-8') 
‘pt_BR.UTF-8' 

>>> fruits = ['caju', ‘atemoia', ‘caja', ‘acai', ‘acerola'] 
>>> sorted_fruits = sorted(fruits, key=locale.strxfrm) 

>>> sorted_fruits 

['agai', ‘acerola', ‘atemoia', 'cajá', ‘caju'] 














因此 ， 使 用 locale.strxfrm 函数 做 排序 键 之 前 ， 要 调用 setlocale(LC_COLLATE, 
«your_locale»). 


Rit, ALR BAER 
。 区 域 设 置 是 全 局 的 ， 因 此 不 推荐 在 库 中 调用 setlocale 函数 。 应 用 或 框架 应 该 在 进 























程 启动 时 设 定 区 域 设 置 ， 而 且 此 后 不 要 再 修改 。 


。 操作 系统 必须 支持 区 域 设置 ， 和 否则 setlocale 函数 会 抛 出 locale.Error: 
unsupported locale setting 异常 。 


。 必须 知道 如 何 拼写 区 域名 称 。 它 在 Unix 衍生 系统 中 几乎 已 经 形成 标准 ， 要 通过 
"language _code.encoding' 获取 。10 但 是 在 Windows 中 ， 句 法 复杂 一 
些 : Language Name-Language Variant_Region Name.codepage。 注 
mm, “Language Name”( 语 言 名 称 ) ~ “Language Variant? (语言 变 体 ) 和 “Region 
Name” (XR) 中 可 以 包含 空格 ， 除 了 第 一 部 分 之 外 ， 其 他 部 分 的 前 面 是 不 同 的 字 
符 : 一 个 连 字 符 、 一 个 下 划 线 和 一 个 点 号 。 除 了 语言 名 称 之 外 ， 其 他 部 分 好 像 都 是 可 
选 的 。 例 如 ，English_United States.856， 它 的 语言 名 称 是 “Englishb”*”， 区 域 
是 “United States”， 代 码 页 是 “850”。Windows 能 理解 的 语言 名 称 和 区 域名 见于 MSDN 
中 的 文章 “Language Identifier Constants and Strings” (https://msdn.microsoft.com/en- 
us/library/dd318693.aspx) ， 还 有 “Code Page Identifiers” (https://msdn.microsoft.com/en- 
us/library/windows/desktop/dd3 17756(v=vs.85).aspx) 一 文 列 出 了 最 后 一 部 分 的 代码 页 


操作 系统 的 制作 者 必须 正确 实现 了 所 设 的 区 域 。 我 在 Ubuntu 14.04 中 成 功 了 ， 但 在 
OS X (Mavericks 10.9) 中 却 失 败 了 。 在 两 台 Mac 中 ， 调 用 
setlocale(LC_COLLATE, 'pt_BR.UTF-8') 返回 的 都 是 字符 串 'pt_BR.UTF-8', 
没有 任何 问题 。 但 是 ，sorted(fruits，key=locale.strxfrm) 得 到 的 结果 与 
sorted(fruits) 一 样 ， 是 错误 的 。 我 还 在 OSX 中 党 试 了 fr_FR、es_ES 和 
de_DE， 但 是 locale.strxfrm JfH EA. 1? 



















































































10 在 Linux 操作 系统 中 ， 中 国 大 陆 的 读者 可 以 使 用 zh_CN.UTF-8， 简 体 中 文 会 按照 汉语 拼音 顺序 进行 排序 ， 它 也 能 对 
葡萄 牙 语 进行 正确 排序 。 编者 注 





























i 感谢 Leonardo Rochael， 他 所 做 的 工作 超出 了 身 为 技术 审 校 的 职责 ， 虽 然 他 是 GNU/Linux 用 户 ， 但 却 研究 了 这 些 
Windows 细节 。 














1 同样 ， 我 没 找到 解决 方案 ， 不 过 却 发 现 其 他 人 也 报告 了 同样 的 问题 。 本 书 技术 审 校 之 一 Alex Martelli, EA OS 
X 10.9 的 Mac 电脑 中 使 用 setlocale 和 locale.strxfrm 时 没有 遇 到 问题 。 综 上 : 结果 因 人 而 异 。 







































































因此 ， 标 准 库 提供 的 国际 化 排序 方案 可 用 ， 但 是 似乎 只 支持 GNU/Linux( 可 能 也 支持 
Windows， 但 你 得 是 专家 ) 。 即 便 如 此 ， 还 要 依赖 区 域 设置 ， 而 这 会 为 部 署 带 来 问题 。 


幸好 ， 有 个 较为 简单 的 方案 : PyPI 中 的 PyUCA JE. 
使 用 Unicode 排 序 算法 排序 
James Tauber， 一 位 高 产 的 Django 页 献 者 ， 他 一 定 是 感受 到 了 这 一 痛 点 ， 因 此 开发 了 


PyUCA 库 (https://pypi.python.org/pypi/pyuca/) ， 这 是 Unicode 排序 算法 (Unicode 
Collation Algorithm, UCA) 的 纯 Python 实现 。 示 例 4-20 展示 了 它 的 简单 用 法 。 























示例 4-20 使 用 pyuca.Collator.sort_key 方法 


>>> import pyuca 
>>> coll = pyuca.Collator() 
>>> fruits = ['caju', ‘atemoia', ‘caja', ‘acai', ‘acerola'] 


>>> sorted_fruits = sorted(fruits, key=coll.sort_key) 
>>> sorted_fruits 
['agai', ‘acerola', ‘atemoia', 'cajá', ‘caju'] 





这 样 做 更 友好 ， 而 且 恰好 可 用 。 我 在 GNU/Linux. OS X 和 Windows 中 做 过 测试 。 目 前 ， 
PyUCA 只 支持 Python 3.x。 13 

















139015 年 5 H, PyUCA 重新 支持 Python 2.x, BL: http://jktauber.com/2015/05/13/pyuca-supports-python-2-again. ——j 
者 注 














PyUCA 没有 考虑 区 域 设 置 。 如 果 想 定制 排序 方式 ， 可 以 把 自 定 义 的 排序 表 路 径 传 给 
Collator() 构造 方法 。PyUCA 默认 使 用 项 目 自 带 的 

allkeys.txt Chttps://github.com/jtauber/pyuca) ， 这 就 是 Unicode 6.3.0 的 “Default Unicode 
Collation Element Table” (http://www.unicode.org/Public/UCA/6.3.0/allkeys.txt) 的 副本 。 


顺便 说 一 下 ， 那 个 表 是 Unicode BHR PARSER PINS. F-Haitix id. 











4.8 Unicode 数据 库 


Unicode 标准 提供 了 一 个 完整 的 数据 库 〈 许 多 格式 化 的 文本 文件 ) ， 不 仅 包 括 码 位 与 字符 
名 称 之 间 的 映射 ， 还 有 各 个 字符 的 元 数据 ， 以 及 字符 之 间 的 关系 。 例 如 ，Unicode 数据 库 
记录 了 字符 是 否 可 以 打印 、 是 不 是 字母 、 是 不 是 数字 ， 或 者 是 不 是 其 他 数值 符号 。 字 符 唱 
的 isidentifier、isprintable、isdecimal 和 isnumeric 等 方法 就 是 靠 这 些 信息 作 


判断 的 。 str.casefold 方法 也 用 到 了 Unicode 表 中 的 信息 。 


unicodedata 模块 中 有 几 个 函数 用 于 获取 字符 的 元 数据 。 例 如 ， 字 符 在 标准 中 的 官方 名 称 是 
不 是 组 合 字符 《如 结合 波形 符 构成 的 变 音 符号 等 ) ， 以 及 符号 对 应 的 人 类 可 读数 值 〈 不 是 
码 位 ) 。 示 例 4-21 展示 了 unicodedata.name() 和 unicodedata.numeric() 函数 ， 以 
及 字符 串 的 .isdecimal() 和 .isnumeric() 方法 的 用 法 。 


示例 4-21 Unicode 数据 库 中 数值 字符 的 元 数据 示例 〈 各 个 标号 说 明 输 出 中 的 各 列 ) 
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import unicodedata 
import re 


re_digit = re.compile(r'\d') 
sample = '1\xbc\xb2\u@969\u136b\u216b\u2466\u2480\uU3285' 


for char in sample: 
print('U+%84x' % ord(char), 

char.center(6), 
're_dig' if re_digit.match(char) else '-', 
‘isdig' if char.isdigit() else '-', 
'isnum' if char.isnumeric() else '-', 
format (unicodedata.numeric(char), '5.2f'), 
unicodedata.name(char) , 
sep='\t') 


0000000 








O U+6666 格式 的 码 位 。 
O 在 长 度 为 6 的 字符 串 中 居中 显示 字符 。 
© 如 果 字 符 匹 配 正则 表达 式 r'\d'， 显 示 re_dig。 

















© 如 果 char.isdigit() 返回 True， 显示 isdig. 

© 如 果 char.isnumeric() 返回 True， 显示 isnum. 
O 使 用 长 度 为 5、 小 数 点 后 保留 2 位 的 浮 点 数 显示 数值 。 
© Unicode 标准 中 字符 的 名 称 。 


运行 示例 4-21 得 到 的 结果 如 图 4-3 所 示 。 














4-3 中 的 第 6 列 是 在 字符 上 调用 unicodedata.numeric(char) 函数 得 到 的 结果 。 这 
表明 ，Unicode 知道 表示 数字 的 符号 的 数值 。 因 此 ， 如 果 你 想 创建 一 个 支持 泰 米尔 数字 和 
罗马 数字 的 电子 表格 应 用 ， 那 就 尽管 去 做 吧 ! 








J 
D 
D 
司 
Ẹ 
$ 





$ python3 numerics_demo.py 

1U+0031 1 re_dig isdig isnum 1.00 DIGIT ONE 

U+@@bc % - - isnum @.25 VULGAR FRACTION ONE QUARTER 
U+00b2 2 - isdig  isnum 2.00 SUPERSCRIPT TWO 

U+0969 3 re_dig isdig isnum 3.00 DEVANAGARI DIGIT THREE 
|U+136b E - isdig isnum 3.00 ETHIOPIC DIGIT THREE 

|U+216b XII - - isnum 12.00 ROMAN NUMERAL TWELVE 

1U+2466 © 7 isdig isnum 7.00 CIRCLED DIGIT SEVEN 

|U+2480 的 - - isnum 13.00 PARENTHESIZED NUMBER THIRTEEN 
U+3285 四 - - isnum 6.0@ CIRCLED IDEOGRAPH SIX 











4-3: 9 个 数值 字符 及 其 元 数据 ;re_dig 表示 字符 匹配 正则 表达 式 r'\d， 


4-3 表明 ， 正 则 表达 式 r'\d' 能 匹配 数字 “1” 和 焚 文 数字 3， 但 是 不 能 匹配 isdigit 方 
法 判断 为 数字 的 其 他 字符 。re 模块 对 Unicode 的 支持 并 不 充分 。PyPI 中 有 个 新 开发 的 
regex 模块 ， 它 的 最 终 目的 是 取代 re 模块 ， 以 提供 更 好 的 Unicode 支持 。14 下 一 节 会 回 
过 头 来 讨论 re 模块 。 

















| 不过 在 这 个 示例 中 ， 它 在 识别 数字 方面 的 表现 没有 re 模块 好 。 


本 章 使 用 了 unicodedata 模块 中 的 几 个 函数 ， 但 是 还 有 很 多 没有 用 到 。 详 情 参 阅 标 准 库 
文档 对 unicodedata 模块 的 说 明 Chttps://docs.python.org/3/library/unicodedata.html) 。 


在 结束 对 字符 串 和 字 节 序列 的 讨论 之 前 ， 我 们 还 要 简要 说 明 一 个 新 的 趋势 一 一 双 模 式 
API， 即 提供 的 函数 能 接受 字符 串 或 字 贡 序列 为 参数 ， 然 后 根据 类 型 进行 特殊 处 理 。 














4.9 ”支持 字符 串 和 字 节 序列 的 双 模 式 API 

标准 库 中 的 一 些 函 数 能 接受 字符 串 或 字 节 序列 为 参数 ， 然 后 根据 类 型 展现 不 同 的 行 

Ae re 和 os 模块 中 就 有 这 样 的 函数 。 

4.9.1 正则 表达 式 中 的 字符 串 和 字 节 序列 

如 果 使 用 字 节 序列 构建 正则 表达 式 ，\d 和 \w 等 模式 只 能 匹配 ASCI 字符 ， 相 比 之 下 ， 如 
果 是 字符 串 模 式 ， 就 能 匹配 ASCII 之 外 的 Unicode 数字 或 字母 。 示 例 4-22 和 图 4-4 展示 了 
字符 串 模 式 和 字 节 序列 模式 中 字母 、ASCI 数字 、 上 标 和 泰 米尔 数字 的 匹配 情况 。 


4-22 ramanujan.py: 比较 简单 的 字符 串 正 则 表达 式 和 字 节 序列 正则 表达 式 的 行 









































import re 


re_numbers_str = re.compile(r'\d+') 1) 
re_words str = re.compile(r' \w+t') 
re_numbers bytes = re.compile(rb'\d+') @ 
re words bytes = re.compile(rb'\w+') 


text_str = ("Ramanujan saw \u@be7\u@bed\ue@be8\uebef" © 
" as 1729 = 13 + 123 = 93 + 103.") (4) 


text_bytes = text str.encode('utf 8') © 


print('Text', repr(text_str), sep='\n ') 

print('Numbers') 

print(' str :', re_numbers_str.findall(text_str)) @ 
print(' bytes:', re numbers bytes.findall(text_bytes)) @ 
print('‘Words') 

print(' str :', re_words_str.findall(text_str)) (8) 
print(' bytes:', re_words_bytes.findall(text_bytes) ) © 





@ 前 两 个 正则 表达 式 是 字符 串 类 型 。 

O 后 两 个 正则 表达 式 是 字 节 序 列 类 型 。 

© 要 搜索 的 Unicode 文本 ， 包 括 1729 的 泰 米尔 数字 《逻辑 行 直到 右 括号 才 结 束 ) 。 

O 这 个 字符 串 在 编译 时 与 前 一 个 拼接 起 来 〈 参 见 Python 语言 参考 手册 中 的 “2.4.2. String 


literal concatenation’, https://docs.python.org/3/reference/lexical_analysis.html#string-literal- 
concatenation) 。 


O FFIR REA Fe TEU AeA SU RR . 


O 字符 串 模式 r'\d+' 能 匹配 泰 米尔 数字 和 ASCH 数字 。 









































序列 模式 rb'\d+' 只 能 匹配 ASCH 字 节 中 的 数字 。 


OF 
O 字符 串 模式 r'\w+' 能 匹配 字母 、 上 标 、 泰 米尔 数字 和 ASCI 数字 。 
OF 


at 





节 序 列 模式 rb'\w+" 只 能 匹配 ASCI 字 节 中 的 字母 和 数字 。 
$ python3 ramanujan.py ) 
Text 


"Ramanujan saw seom as 1729 = 13 + 123 = 93 + 103.' 


: ['sas', "8729", '1', '12', '9', '10'] 
: [b'1729', b'1', b'12', b'9', b'10'] 


: ['Ramanujan', 'saw', 'saz2æ', 'as', '1729', '13', '123', '93', '103'] 
: [b'Ramanujan', b'saw', b'as', b'1729', b'1', b'12', b'9', b'10'] 





4-4: 运行 示例 4-22 中 的 ramanujan.py 脚本 时 的 截 


示例 4-22 是 随便 举 的 例子 ， 为 的 是 说 明 一 个 问题 : 可 以 使 用 正则 表达 式 搜索 字符 串 和 字 
节 序列 ， 但 是 在 后 一 种 情况 中 ，ASCI 范围 外 的 字 节 不 会 当成 数字 和 组 成 单词 的 字母 。 


字符 串 正 则 表达 式 有 个 re.ASCII 标志 ， 它 让 \w. \W. \by \B. \d. \D. \s 和 \s RIE 
Ac ASCI 字符 。 详 情 参阅 re 模块 的 文档 Chttps://docs.python.org/3/library/re.html) o 


另 一 个 重要 的 双 模 式 模块 是 os。 


4.9.2 os 函数 中 的 字符 串 和 字 市 序列 


GNU/Linux 内 核 不 理解 Unicode， 因 此 你 可 能 发 现 了 ， 对 任何 合理 的 编码 方案 来 说 ， 在 文 
件 名 中 使 用 字 节 序列 都 是 无 效 的 ， 无 法 解码 成 字符 串 。 在 不 同 操作 系统 中 使 用 各 种 客户 端 
的 文件 服务 器 ， 在 遇 到 这 个 问题 时 尤其 容易 出 错 。 


为 了 规避 这 个 问题 ，os 模块 中 的 所 有 函数 、 文 件 名 或 路 径 名 参数 既 能 使 用 字符 串 ， 也 能 
使 用 字 节 序列 。 如 果 这 样 的 函数 使 用 字符 串 参数 调用 ， 该 参数 会 使 用 
sys.getfilesystemencoding() 得 到 的 编 解码 器 自动 编码 ， 然 后 操作 系统 会 使 用 相同 
的 编 解 码 器 解码 。 这 几乎 就 是 我 们 想 要 的 行为 ， 与 Unicode 三 明治 最 佳 实 践 一 致 。 

但 是 ， 如 果 必 须 处 理 〈 也 可 能 是 修正 ) 那些 无 法 使 用 上 述 方式 自动 处 理 的 文件 名 ， 可 以 把 
字 节 序列 参数 传 给 os 模块 中 的 函数 ， 得 到 字 节 序列 返回 值 。 这 一 特性 允许 我 们 处 理 任 何 
文件 名 或 路 径 名 ， 不 管 里 面 有 多 少 鬼 符 ， 如 示例 4-23 所 示 。 


示例 4-23 ”把 字符 串 和 字 节 序列 参数 传 给 1istdir 函数 得 到 的 结果 


























>>> os.listdir('.') # © 


['abc.txt', 'digits-of-n.txt'] 
>>> os.listdir(b'.') # @ 
[b'abc.txt', b'digits-of-\xcf\x80.txt'] 





O 第 二 个 文件 名 是 “digits-of rtxf” (有 一 个 希腊 字母 r) 。 


O 参数 是 字 节 序列 ，1istdir 函数 返回 的 文件 名 也 是 字 节 序列 : b'\xcf\x80' 是 希腊 字 
元 的 UTF-8 编码 。 


T Ee Een os 模块 提供 了 特殊 的 编码 
和 解码 函数 。 






































fsencode(filename) 


WR Filename 是 str 类 型 (此 外 还 可 能 是 bytes 类 型 ) ， 使 用 
sys.getfilesystemencoding() 返回 的 编 解码 器 把 filename 编码 成 字 节 序列 ， 否 则 ， 
返回 未 经 修改 的 filename 字 节 序列 。 





fsdecode(filename) 


如 果 filename 是 bytes 类 型 〈 此 外 还 可 能 是 str 类 型 ) ， 使 用 
sys.getfilesystemencoding() 返回 的 编 解码 器 把 Filename 解码 成 字符 串 ; 否则 ， 返 
回 未 经 修改 的 filename FE. 


在 Unix 衍生 平台 中 ， 这 些 函 数 使 用 surrogateescape 错误 处 理 方式 (参见 下 述 附注 
RE) 以 避免 遇 到 意外 字 节 序列 时 卡 住 。Windows 使 用 的 错误 处 理 方式 是 strict. 


















































使 用 surrogateescape 处 理 鬼 符 














Python 3.1 引入 的 surrogateescape 编 解 码 器 错误 处 理 方式 是 处 理 意外 字 节 序列 或 
未 知 编码 的 一 种 方式 ， 它 的 说 明 参 见 “PEP 383 一 Non-decodable Bytes in System 
Character Interfaces” (https://www.python.org/dev/peps/pep-0383/) 。 























这 种 错误 处 理 方式 会 把 每 个 无 法 解码 的 字 节 蔡 换 成 Unicode 中 U+DCO00 到 UHDCFF 之 
间 的 码 位 (Unicode 标准 把 这 些 码 位 称 为 "Low Surrogate Area”) ， 这 些 码 位 是 保留 

的 ， 没 有 分 配 字 符 ， 供 应 用 程序 内 部 使 用 。 编 码 时 ， 这 些 码 位 会 转换 成 被 蔡 换 的 字 节 
值 ， 如 示例 4-24 所 示 。 















































示例 4-24 使 用 surrogateescape 错误 处 理 方 式 





>>> os.listdir('.') © 

['abc.txt', 'digits-of-n.txt'] 

>>> os.listdir(b'.') @ 

[b'abc.txt', b'digits-of-\xcf\x80.txt'] 

>>> pi_name_bytes = os.listdir(b'.')[1] © 

>>> pi_name_str = pi_name_bytes.decode('ascii', 'surrogateescape') @ 
>>> pi_name_ str © 

"digits -of-\udccf\udc8@.txt' 

>>> pi_name_str.encode('ascii', ‘'surrogateescape') © 
b'digits-of-\xcf\x80.txt 











@O 列 出 目录 里 的 文件 ， 有 个 文件 名 中 包含 非 ASCH 字符 。 
O 假设 我 们 不 知道 编码 ， 获 取 文 件 名 的 字 节 序列 形式 。 
© pi_names_bytes 是 包含 zx 的 文件 名 。 


O 使 用 'ascii' 编 解 码 器 和 'surrogateescape' 错误 处 理 方式 把 它 解 码 成 字符 





























O 各 个 非 ASCH 字 节 替换 成 代替 码 位 : | \xcf\x80' 变 成 了 '\udccf\udc80'。 
O 编码 成 ASCI 字 节 序列 : 各 个 代替 码 位 还 原 成 被 蔡 换 的 字 节 。 
我 们 对 字符 串 和 字 节 序列 的 探讨 到 此 结束 。 如 果 你 坚持 读 到 这 里 ， 茶 喜 你 ! 











410 ”本 章 小 结 


本 章 首 先 漆 清 了 人 们 对 一 个 字符 等 于 一 个 字 节 的 误解 。 随 着 Unicode 的 广泛 使 用 (80% 的 
网 站 已 经 使 用 UTF-8) ， 我 们 必须 把 文本 字符 串 与 它们 在 文件 中 的 二 进 制 序列 表述 区 分 
开 ， 而 Python 3 中 这 个 区 分 是 强制 的 。 


对 bytes、 by tear ray 和 memoryview 等 二 进 制 序列 数据 类 型 做 了 简要 概述 之 后 ， 我 们 
转 到 了 编码 和 解码 话题 ， 通 过 示例 展示 了 重要 的 编 解码 器 ;随后 讨论 了 如 何 避 兔 和 处 理 具 
名 昭著 的 Unicode En codeer or 和 UnicodeDecodeError， 以 及 由 于 Python 源码 文件 编 
码 错误 导致 的 SyntaxError。 


讨论 源码 的 编码 问题 时 ， 我 表明 了 自己 对 非 ASCH 标识 符 的 观点 : 如 果 代 码 基 的 维护 者 想 
使 用 包含 非 ASCI 字符 的 人 类 语言 命名 标识 符 ， 那 就 去 做 ， 除 非 还 想 在 Python 2 中 运行 代 
码 。 但 是 ， 如 果 项 目 想 吸引 世界 各 国 的 贡献 者 ， 那 么 标识 符 应 该 使 用 英语 单词 ， 此 时 
ASCI 就 够 用 了 。 


然后 ， 我 们 说 明了 在 没有 元 数据 的 情况 下 检测 编码 的 理论 和 实际 情况 : 理论 上 ， 做 不 到 这 
一 点 ; 但 是 实际 上 ，Chardet 包 能 够 正确 处 理 一 些 流行 的 编码 。 随 后 介 绍 了 字 忆 序 标记 ， 
这 是 UTF-16 和 UTF-32 文件 中 常见 的 编码 提示 ， 某 些 UTF-8 文件 中 也 有 


随后 的 一 节 演 示 了 如 何 打开 文本 文件 ， 这 是 一 项 简单 的 任务 ， 不 过 有 个 陷阱 : 打开 文本 文 
件 时 ，encoding= 关键 字 参 数 不 是 必需 的 ， 但 是 应 该 指定 。 如 果 没 指定 编码 ， 那 么 程 
序 会 想方设法 生成 “ 纯 文本 ， 如 此 一 来 ， 不 一 致 的 默认 编码 就 会 导致 跨 平台 不 兼容 性 。 然 
后 ， 我 们 说 明了 Python 用 作 默 认 值 的 几 个 编码 设置 ， 以 及 如 何 检 测 它 

们 : locale.getpreferredencoding()、sys.getfilesystemencoding()、sys.getc 
以 及 标准 VO 文件 (如 sys.stdout.encoding) 的 编码 。 对 Windows 用 户 来 说 ， 现 实 不 
容 乐观 : 这 些 设置 在 同一 台 设 备 中 往往 有 不 同 的 值 ， 而 且 各 个 设置 相互 不 兼容 。 而 对 
GNU/ Linux 和 OS X 用 户 来 说 ， 情 况 就 好 多 了 ， 几 乎 所 有 地 方 使 用 的 默认 值 都 是 UTF-8。 


文本 比较 是 个 异常 复杂 的 任务 ， 因 为 Unicode 为 某 些 字符 提供 了 不 同 的 表示 ， 所 以 匹配 文 
本 之 前 一 定 要 先 规 范 化 。 说 明 规范 化 和 大 小 写 折 膨 之 后 ， 我 们 提供 了 儿 个 实用 函数 ， 你 可 
以 根据 自己 的 需求 改编 。 其 中 有 个 函数 所 做 的 是 极端 转换 ， 比 如 去 掉 所 有 重音 符号 。 随 
后 ， 我 们 说 明了 如 何 使 用 标准 库 中 的 locale 模块 正确 地 排序 Unicode 文本 (有 一 些 注意 
事项 ) ; 此 外 ， 还 可 以 使 用 外 部 的 PyUCA 包 ， 从 而 无 需 依赖 捉摸 不 定 的 区 域 配置 。 


最 后 简要 介绍 了 Unicode 数据 库 〈 包 含 每 个 字符 的 元 数据 ) ， 还 简单 讨论 了 双 模 式 
API (例如 re 和 os 模块 ， 这 两 个 模块 中 的 某 些 函数 可 以 接受 字符 串 或 字 节 序列 参数 ， 返 
回 不 同 但 合适 的 结果 ) o 























































































































































































































































































































4.11 延伸 阅读 


Ned Batchelder 在 2012 年 的 PyCon US 所 做 的 演讲 “Pragmatic Unicode—or—How Do I Stop 
the Pain?” Chttp://nedbatchelder.conytext/unipain.html) 非常 出 色 。Ned 很 专业 ， 除 了 幻灯 片 
和 视频 之 外 ， 他 还 提供 了 完整 的 文字 记录 。Esther Nam 和 Travis Fischer 在 PyCon 2014 做 
了 一 场 精彩 的 演讲 : “Character encoding and Unicode in Python: How to (^ °a°)7 一 
+—L with dignity’[ 约 灯 片 Chttp://www.slideshare.net/fischertrav/character-encoding- 
unicode-how-to-with-dignity-33352863) ， 视 频 Chttp://pyvideo.org/pycon-us-2014/character- 
encoding-and-unicode-in-python.html) ]。 本 章 开 头 那 句 简 短 有 力 的 话 就 是 出 自 这 次 演 

HE: “人 类 使 用 文本 ， 计 算 机 使 用 字 节 序列 。?”* 本 书 的 技术 审 校 之 一 Lennart Regebro 

在 “Unconfusing Unicode: What Is 

Unicode?” Chttps://regebro.wordpress.com/2011/03/23/unconfusing-unicode-what-is-unicode/ ) 
这 篇 短文 中 提出 了 “Useful Mental Model of Unicode (CUMMU) ”. Unicode 是 个 复杂 的 标 
准 ，Lennart 提出 的 UMMU 是 个 很 好 的 切入 点 。 






































Python 文档 中 的 “Unicode HOWTO” 一 文 https://docs.python.org/3/howto/unicode.html〉 从 几 
个 不 同 的 角度 对 本 章 所 涉及 的 话题 做 了 讨论 ， 从 编码 历史 到 句法 细节 、 编 解码 器 、 正 则 表 
达 式 、 文 件 名 和 Unicode 的 IO 最 佳 实践 CB Unicode 三 明治 ) ， 而 且 各 节 都 给 出 了 大 量 
参考 资料 链接 。Dive into Python 3 是 一 本 非常 优秀 的 书 (Mark Pilgrim 

著 ，http://www.diveintopython3.net) ， 其 中 第 4 

“Strings” (http://www.diveintopython3 .net/strings.html) 对 Python 3 对 Unicode 的 支持 做 了 
很 好 的 介绍 。 此 外 ， 该 书 的 第 15 章 Chttp://getpython3.con/diveintopython3/case-study- 
porting-chardet-to-python-3.html) 前 述 了 Chardet 库 从 Python 2 移植 到 Python 3 的 过 程 ， 这 
是 一 个 宝贵 的 案例 分 析 ， 从 中 可 以 看 出 ， 从 旧 的 str 类 型 转 到 新 的 bytes 类 型 是 造成 迁 
移 如 此 痛苦 的 主要 原因 ， 也 是 检测 编码 的 库 应 该 关注 的 重点 。 


如 果 你 用 过 Python 2， 但 是 刚 接触 Python3， 可 以 阅读 Guido van Rossum 写 的 “Whats New 
in Python 3.0” Chttps://docs.python.org/3.0/whatsnew/3.0.html#text-vs-data-instead-of-unicode- 
vs-8-bit) ， 这 篇 文章 简要 列 出 了 新 版 的 15 点 变化 ， 而 且 附 有 很 多 链接 。Guido 开门 见 山 
地 说 道 :“ 你 自 以 为 知 道 的 二 进 制 数 据 和 Unicode 知识 全 都 变 了 。”Armin Ronacher 的 博客 
文章 “The Updated Guide to Unicode on Python” (http://lucumr.pocoo.org/2013/7/2/the-updated- 
guide-to-unicode/) 深入 分 析 了 Python 3 中 Unicode 的 一 些 陷阱 (Armin 不 是 很 热衷 于 
Python3) 。 























《Python Cookbook (45 3 版 ) 中 文 版 》 (David Beazley 和 Brian K. Jones 3#) 的 第 2 章 “ 字 
符 串 和 文本 ”中 有 几 个 诀窍 谈 到 了 Unicode 规范 化 、 清 洗 文本 ， 以 及 在 字 节 序列 上 执行 面 
向 文本 的 操作 。 第 5 章 涵盖 文件 和 VO, “5.17 将 字 节 数据 写 入 文本 文件 ”指出 ， 任 何 文本 
文件 的 底层 都 有 一 个 二 进 制 流 ， 如 果 需 要 可 以 直接 访问 。 之 后 的 “6.11 读 写 二 进 制 结构 的 
数组 ”用 到 了 struct 模块 。 


Nick Coghlan 的 “Python Notes” 博 客 中 有 两 篇 文章 与 本 章 的 话题 十 分 相关 : “Python 3 and 
ASCI Compatible Binary Protocols” (http://python- 
notes.curiousefficiency.org/en/latest/python3/binary protocols.html) 和 “Processing Text Files in 
Python 3” Chttp://python- 

notes.curiousefficiency.org/en/latest/python3/text_file processing.html) 。 强 烈 推荐 阅读 。 



































Python 3.5 将 为 二 进 制 序列 引入 新 的 构造 方法 和 方法 ， 而 且 会 废弃 目前 使 用 的 构造 方法 签 
名 (参见 “PEP 467—Minor API improvements for binary 

sequences”, https://www.python.org/dev/peps/pep-0467/) 。 此 外 ，Python 3.5 还 会 实现 “PEP 
461—Adding % formatting to bytes and bytearray” (https://www.python.org/dev/peps/pep- 
0461/) 。 


Python 支持 的 编码 列表 参见 codecs 模块 文档 的 “Standard Encodings” 一 节 
(https://docs.python.org/3/library/codecs.html#standard-encodings) 。 如 果 需 要 通过 编程 的 方 
式 获 得 那个 列表 ， 看 看 CPython 源码 中 /Tools/unicode/listcodecs.py 脚本 
(https://hg. python.org/cpython/file/6dcc96fa3970/Tools/unicode/listcodecs.py) 是 怎么 做 的 。 





Martijn Faassen 的 文章 “Changing the Python Default Encoding Considered 

Harmful” Chttp://blog.startifact.com/posts/older/changing-the-python-default-encoding- 
considered-harmful.html) 和 Tarek Ziadé 的 文章 “sys.setdefaultencoding Is 

Evil” Chttp://blog.ziade.org/2008/01/08/syssetdefaultencoding-is-evil/) 解释 了 为 什么 一 定 不 
能 修改 sys.getdefaultencoding() 获取 的 编码 ， 即 便 知 道 怎 么 做 也 不 能 改 。 


Unicode Explained (Jukka K. Korpela #%, O'Reilly 出 版 

žŁ, http://shop.oreilly.com/product/9780596101213.do) 和 Unicode Demystified (Richard 

Gillam #, Addison-Wesley th}¢k, http://www.informit.com/store/unicode-demystified-a- 

practical-programmers-guide-to-9780201700527) 这 两 本 书 不 是 针对 Python 的 ， 但 在 我 学 习 

Unicode 相关 概念 时 给 了 我 很 大 的 帮助 。Victor Stinner 的 著作 Programming with 

Unicode (http://unicodebook.readthedocs.org/index.html) 是 一 本 免费 的 自 出 版 图 书 〈 遵 守 

CC BY-SA 协议 ) ， 其 中 讨论 了 一 般 的 Unicode 话题 ， 以 及 主流 操作 系统 和 几 门 编程 语言 
(包括 Python) 中 的 相关 工具 和 API. 


W3C 网 站 中 的 “Case Folding: An 

Introduction” (https://www.w3.org/International/wiki/Case_folding) 和 “Character Model for 
the World Wide Web: String Matching and Searching” Chttps://www.w3.org/TR/charmod- 
norm) 讨论 了 规范 化 相关 的 概念 ， 前 者 是 介绍 性 文章 ， 后 者 则 是 以 枯燥 的 标准 用 语 写 整 
的 工作 草案 一 一 “Unicode Standard Annex #15 一 Unicode Normalization 

Forms” (http://unicode.org/reports/tr15/) 也 是 这 种 风格 。Unicode.org 网 站 中 的 “Frequently 
Asked Questions / Normalization”(http://www.unicode.org/faq/normalization.html〉 更 容易 理 
解 ， Mark Davis 写 的 “NFC FAQ” Chttp://www.macchiato.com/unicode/nfc-faq) 也 是 如 此 。 
Mark 是 多 个 Unicode 算法 的 作者 ， 在 我 写作 本 书 时 ， 他 还 担任 Unicode 联盟 的 主席 。 



































杂谈 
“ 纯 文本 ”是 什么 
对 于 经 常 处 理 非 英 语文 本 的 人 来 说 ,“ 纯 文本 ”并 不 是 指 “*ASCIT”。Unicode 词汇 表 
Chttp://www.unicode.org/glossary/#plain text) 是 这 样 定义 纯 文本 的 : 
只 由 特定 标准 的 码 位 序列 组 成 的 计算 机 编码 文本 ， 其 中 不 含 其 他 格式 化 或 结构 化 


自 


— 
HO o 


这 个 定义 的 前 半 句 说 得 很 好 ， 但 是 我 不 同意 后 半 句 。HTML 就 是 包含 格式 化 和 结构 化 





















































言 息 的 纯 文本 格式 ， 但 它 依 然 是 纯 文本 ， 因 为 HTML 3c fF A BES BB es MAS 
字符 (通常 使 用 UTF-8 编码 ) ， 没 有 任何 字 节 表示 文本 之 外 的 信息 。.png 或 .xsl 文档 
则 不 同 ， 其 中 多 数字 节 表 示 打 包 的 二 进 制 值 ， 例 如 RGB 值 和 浮 点 数 。 在 纯 文本 中 ， 
数字 使 用 数字 符号 序列 表示 。 


这 本 书 是 我 用 一 种 名 为 AsciiDoc (http://www.methods.co.nz/asciidoc/， 很 讽刺 〉 的 纯 
文本 格式 撰写 的 ， 它 是 O'Reilly 优秀 的 图 书 出 版 平台 Atlas (https://atlas.oreilly.comy) 
的 工具 链 中 的 一 部 分 。AsciiDoc 的 源 文件 是 纯 文本 ,但 用 的 是 UTF-8 编码 ， 而 不 是 
ee a ee 
很 棒 的 工具 。 


Unicode 的 世界 正在 不 断 扩 张 ， 但 是 有 些 边缘 场景 缺少 支持 工具 。 因 此 图 4-1、 图 4-3 
和 图 4-4 中 的 内 容 要 使 用 图 像 ， 因 为 泻 染 本 书 的 字体 中 缺少 一 些 我 想 展示 的 字符 。 不 
过 ，Ubuntu 14.04 和 OS X 10.9 的 终端 能 正确 显示 ， 包 括 “mojibake”( 文 字 化 全 ) 这 个 
日 文 的 词 。 


捉摸 不 透 的 Unicode 


讨论 Unicode 规范 化 时 ， 我 经 常 使 用 “往往 “多 数 "和 “通常 "等 不 确定 的 修饰 语 。 很 遗 
憾 ， 我 不 能 提供 更 可 靠 的 建议 ， 因 为 Unicode 规则 有 很 多 例外 ， 很 难 百分之百 确定 。 


例如 ，A〈 微 符号 ) 是 “兼容 字符 ”， 而 Q CBRE) AIA GR) 符号 却 不 是 。 这 种 差别 
是 有 真实 影响 的 : NFC 规范 化 形式 推荐 用 于 文本 匹配 ) 会 把 QQ 欧姆 ) 蔡 换 成 
Q 《大 写 希腊 字母 欧米 加 〉 ， 把 和 A〈 埃 ) 蔡 换 成 A〈 上 有 圆圈 的 大 写字 母 A) 。 但 
是 ， 作 为 "兼容 字符 ”的 A《 微 符号 ) 不 会 蔡 换 成 视觉 等 效 的 由 《小写 希 腊 字 母 上) ; 
不 过 在 使 用 更 极端 的 NFKC 或 NFKD 规范 化 形式 时 会 替换 ， 但 这 是 有 损 转换 。 


我 能 理解 为 什么 把 上 〈 微 符号 ) 纳入 Unicode, AIA latini 编码 中 有 它 ， 如 果 换 成 
希腊 字母 4， 会 破坏 两 种 编码 之 间 的 转换 。 说 到 底 ， 这 就 是 微 符号 是 “兼容 字符 ”的 原 
因 。 但 是 ， 如 果 是 由 于 兼容 原因 而 没 把 欧姆 和 埃 符 号 纳入 Unicode， 那 为 什么 这 两 个 
符号 要 存在 ? Unicode 已 经 为 GREEK CAPITAL LETTER OMEGA 和 LATIN CAPITAL 
LETTER A WITH RING ABOVE 分 配 了 码 位 ， 它 们 的 外 观 一 样 ， 而 且 NFC 规范 化 形式 
会 蔡 换 它们 。 想 想 看 吧 。 


研究 Unicode 几 小 时 之 后 ， 我 猜测 的 原因 是 : Unicode 异常 复杂 ， 充 满 特殊 情况 ， 而 
且 要 覆盖 各 种 人 类 语言 和 产业 标准 策略 。 

在 RAM 中 如 何 表 示 字 符 串 

Python 官方 文档 对 字符 串 的 码 位 在 内 存 中 如 何 存储 避 而 不 谈 。 毕 竞 ， 这 是 实现 细节 。 


理论 上 ， 怎 么 在 估 部 没关系 不 管内 部 表述 如何， 输出 时 每 个 字符 囊 部 要 编码 成 字 池 
FI. 


在 内 存 中 ，Python 3 使 用 固定 数量 的 字 节 存储 字符 串 的 各 个 码 位 ， 以 便 高 效 访问 各 个 
字符 或 切片 。 


在 Python 3.3 之 前 ， 编 译 CPython 时 可 以 配置 在 内 存 中 使 用 16 位 或 32 位 存储 各 个 人 码 
位 。16 LEETE” (narrow build) ，32 位 是 “ 宽 构 建 ”(wide build) 。 如 果 想 知道 





































































































































































































用 的 是 哪个 ， 要 查看 sys .maxunicode 的 值 : 65535 表示 “ 罕 构 建 "， 不 能 透明 地 处 理 
U+FFFF 以 上 的 码 位 。“ 宽 构建 "没有 这 个 限制 ， 但 是 消耗 的 内 存 更 多 : 每 个 字符 占 4 
个 字 节 ， 就 算是 中 文 象形 文字 的 码 位 大 多 数 也 只 占 2 个 字 节 。 这 两 种 构建 没有 高 下 之 
分 ， 应 该 根据 自己 的 需求 选择 。 


从 Python3.3 起 ， 创 建 str 对 象 时 ， 解 释 器 会 检查 里 面 的 字符 ， 然 后 为 该 字符 串 选 择 
最 经 济 的 内 存 布局 : 如 果 字 符 都 在 latini 字符 集中 ， 那 就 使 用 1 个 字 节 存储 每 个 码 
位 ; 否则， 根据 字符 串 中 的 具体 字符 ， 选 择 2 个 或 4 个 字 节 存储 每 个 码 位 。 这 是 简 
述 ， 完 整 细节 参阅 “PEP 393 一 Flexible String 

Representation” Chttps://www.python.org/dev/peps/pep-0393/) 。 


灵活 的 字符 串 表 述 类 似 于 Python 3 对 int 类 型 的 处 理 方式 : 如 果 一 个 整数 在 一 个 机 
器 字 中 放 得 下 ， 那 就 存储 在 一 个 机 器 字 中 ;否则 解释 器 切换 成 变 长 表述 ， 类 似 于 
Python 2 中 的 long 类 型 。 这 种 聪明 的 做 法 得 到 推广 ， 真 是 让 人 欢喜 ! 





























把 函数 视 作 对 象 


第 5 半 一 等 函数 


不 管 别 人 怎么 说 或 怎么 想 ， 我 从 未 觉得 Python 受到 来 自 函 数 式 语言 的 太 多 影响 。 我 
非常 熟悉 命令 式 语言 ， 如 C 和 Algol 68， 虽 然 我 把 函数 定 为 一 等 对 象 ， 但 是 我 并 不 把 
Python 当 作 函 数 式 编程 语言 。1 


vA 











—Guido van Rossum 


Python 仁慈 的 独裁 者 








| 1 摘录 自 Guido 的 The History of Python 博客 ，“Origins of Python's Functional Features” (http://python- 
| history. blogspot.jp/2009/04/origins-of-pythons-functional-features.html) 。 








在 Python 中 ， 函 数 是 一 等 对 象 。 编 程 语 言 理 论 家 把 “一 等 对 象 "定义 为 满足 下 述 条 件 的 程 
序 实体 : 


。 在 运行 时 创建 
。 能 赋值 给 变量 或 数据 结构 中 的 元 素 
。 能 作为 参数 传 给 函数 
。 能 作为 函数 的 返回 结果 

在 Python 中 ， 整 数 、 字 符 串 和 字典 都 是 一 等 对 象 _“ ”没什么 特别 的 。 如 果 在 Python 之 


前 ， 你 使 用 的 语言 并 未 把 函数 当 作 一 等 公民 ， 那 么 本 章 以 及 第 三 部 分 余下 的 内 容 将 重点 讨 
论 把 函数 作为 对 象 的 影响 和 实际 应 用 。 

















~ 人 们 经 常 将 “把 函数 视 作 一 等 对 象 ” 人 简称 为 “一 等 函数 "。 这 样 说 并 不 完美 ， 似 乎 
表明 这 是 函数 中 的 特殊 群体 。 在 Python 中 ， 所 有 函数 都 是 一 等 对 象 。 





5.1 把 函数 视 作 对 象 


示例 5-1 中 的 控制 台 会 话 表 明 ，Python 函数 是 对 象 。 这 里 我 们 创建 了 一 个 函数 ， 然 后 调用 
它 ， 读 取 它 的 __doc__ 属 性， 并 且 确 定 函数 对 象 本 身 是 Function 类 的 实例 。 


示例 5-1 创建 并 测试 一 个 函数 ， 然 后 读 取 它 的 _、 doc_ 属性， 再 检查 它 的 类 型 



































>>> def factorial(n): @ 
saan "''peturns nl 
return 1 if n < 2 else n * factorial(n-1) 


>>> factorial(42) 
1405006117752879898543142606244511569936384000000000 
>>> factorial. doc @ 

"returns n!' 

>>> type(factorial) © 

<class 'function'> 











O 这 是 一 个 控制 台 会 话 ， 因 此 我 们 是 在 “运行 时 ”创建 一 个 函数 。 
@ doc ”是 函数 对 象 众 多 属性 中 的 一 个 。 
© factorial 是 function 类 的 实例 。 


_ doc_ _ 属 性 用 于 生成 对 象 的 帮助 文本 。 在 Python ZE Eh 
命令 输出 的 内 容 如 图 5-1 所 示 。 














| 台中 ，help(factorial) 
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5-1: factorial 函数 的 帮助 界面 ;输出 的 文本 来 自 函 数 对 象 的 _、doc_ 属性 

示例 5-2 展示 了 函数 对 象 的 “一 等 ”本 性 。 我 们 可 以 把 factorial 函数 赋值 给 变量 fact, 
然后 通过 变量 名 调用 。 我 们 还 能 把 它 作 为 参数 传 给 map 函数 。map 函数 返回 一 个 可 迭代 
对 象 ， 里 面 的 元 素 是 把 第 一 个 参数 〈 一 个 函数 ) 应 用 到 第 二 个 参数 〈 一 个 可 迭代 对 象 ， 这 
里 是 range(11)) 中 各 个 元 素 上 得 到 的 结果 。 


示例 5-2 ”通过 别 的 名 称 使 用 函数 ， 再 把 函数 作为 参数 传递 


>>> fact = factorial 



































>>> fact 

<function factorial at @x...> 

>>> fact(5) 

120 

>>> map(factorial, range(11)) 

<map object at @x...> 

>>> list(map(fact, range(11))) 

[1, 1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] 




















有 了 一 等 函数 ， 就 可 以 使 用 函数 式 风格 编程 。 函 数 式 编程 的 特点 之 一 是 使 用 高 阶 函 数 一 一 
这 是 下 一 节 的 话题 。 





5.2 a br RR aL 

接受 函数 为 参数 ， 或 者 把 函数 作为 结果 返回 的 函数 是 高 阶 函 数 Chigher-order 

function) . map 函数 就 是 一 例 ， 如 示例 5-2 所 示 。 此 外 ， 内 置 函数 sorted 也 是 : 可 选 的 
key 参数 用 于 提供 一 个 函数 ， 它 会 应 用 到 各 个 元 素 上 进行 排序 ， 参 见 2.7 节 。 

例如 ， 若 想 根 据 单词 的 长 度 排 序 ， 只 需 把 len 函数 传 给 key 参数 ， 如 示例 5-3 所 示 。 


示例 5-3 根据 单词 长 度 给 一 个 列表 排序 









































>>> fruits = ['strawberry', 'fig', 'apple', ‘cherry', 'raspberry', "banana ] 
>>> sorted(fruits, key=len) 


['fig', ‘apple', ‘cherry’, 'banana', 'raspberry', ‘strawberry' ] 
>>> 


任何 单 参数 函数 都 能 作为 key 2 参数 的 值 。 例 如 ， 为 了 创建 押韵 词典 ， 可 以 把 各 个 单词 反 











过 来 拼写 ， 然 后 排序 。 注 意 ， 示 例 5-4 中 列表 里 的 单词 没有 变 ， 我 们 只 是 把 反 向 拼写 当 作 
排序 条 件 ， 因 此 各 种 浆果 (berry〉 都 排 在 一 起 。 


示例 5-4 根据 反 向 拼写 给 一 个 单词 列表 排序 











>>> def reverse(word): 
return word[::-1] 
>>> reverse('testing' ) 
"gnitset' 
>>> sorted(fruits, key=reverse) 
['banana', ‘apple', 'fig', 'raspberry', '‘strawberry', 'cherry'] 
>>> 














在 函数 式 编程 范式 中 ， 最 为 人 熟知 的 高 阶 函 数 有 map. filter. reduce 和 

apply. apply 函数 在 Python 2.3 中 标记 为 过 时 ， 在 Python 3 中 移 除 了 ， 因 为 不 再 需要 它 
了 。 如 果 想 使 用 不 定量 的 参数 调用 函数 ， 可 以 编写 fn(*args，##keywords)， 不 用 再 编 
写 apply(fn, args, kwargs). 


map. filter fil eee EWS, Nite ae Aas Fab A EA aN 
品 。 详 情 参 阅 下 一 
































map、filter 和 reduce 的 现代 替代 品 


函数 式 语言 通常 会 提供 map. filter 和 reduce 三 个 高 阶 函 数 〈 有 时 使 用 不 同 的 名 

称 ) 。 在 Python3 F, map fl filter 还 是 内 置 函数 ， 但 是 由 于 引入 了 列表 推导 和 生成 器 
表达 式 ， 它们 变 得 没 那 么 重要 了 。 列 表 推 导 或 生成 器 表达 式 具 有 map 和 filter 两 个 函数 
的 功能 ， 而 且 更 易于 阅读 ， 如 示例 5-5 所 示 。 


示例 5-5 计算 阶乘 列表 : map 和 Filter 与 列表 推导 比较 





















































>>> list(map(fact, range(6))) @ 

[1, 1, 2, 6, 24, 120] 

>>> [fact(n) for n in range(6)] @ 

[1, 1, 2, 6, 24, 120] 

>>> list(map(factorial, filter(lambda n: n % 2, range(6)))) © 
[1, 6, 120] 

>>> [factorial(n) for n in range(6) if n% 2] @ 

[1, 6, 120] 

>>> 








@ 构建 0! 到 5! 的 一 个 阶乘 列表 。 

O 使 用 列表 推导 执行 相同 的 操作 。 

© 使 用 map 和 filter 计算 直到 5! 的 奇数 阶乘 列表 。 

O 使 用 列表 推导 做 相同 的 工作 ， 换 掉 map 和 filter， 并 避免 了 使 用 lambda 表达 式 。 











在 Python3 F, map 和 filter 返回 生成 器 (一 种 迭代 器 ) ， 因 此 现在 它们 的 直接 蔡 代 品 
(在 Python 2 中 ， 这 两 个 函数 返回 列表 ， 因 此 最 接近 的 奉 代 品 是 列表 推 
导 ) 。 





在 Python 2 中 ，reduce 是 内 置 函 数 ， 但 是 在 Python 3 中 放 到 functools 模块 里 了 。 这 个 
函数 最 常用 于 求 和 ， 自 2003 年 发 布 的 Python 2.3 开始 ， 最 好 使 用 内 置 的 sum 函数 。 在 可 
读 性 和 性 能 方面 ， 这 是 一 项 重大 改善 〈《 见 示例 5-6) 。 











示例 5-6 使 用 reduce 和 sum 计算 0~99 之 和 


>>> from functools import reduce © 
>>> from operator import add @ 

>>> reduce(add, range(100)) © 

4950 

>>> sum(range(100)) @ 

4950 

>>> 








@ 从 Python 3.0 #2, reduce 不 再 是 内 置 函 数 了 。 

四 导入 add， 以 免 创建 一 个 专 求 两 数 之 和 的 函数 。 

© 计算 0~99 之 和 。 

@ 使 用 sum 做 相同 的 求 和 ; 无 需 导 入 或 创建 求 和 函数 。 


sum 和 reduce 的 通用 思想 是 把 某 个 操作 连续 应 用 到 序列 的 元 素 上 ， 累 计 之 前 的 结果 ， 把 
一 系列 值 归 约 成 一 个 值 。 


all 和 any 也 是 内 置 的 归 约 函数 。 


all(iterable) 
































如 果 iterable 的 每 个 元 素 都 是 真 值 ， 返 回 True; all([]) 返回 True. 


any(iterable) 











只 要 iterable 中 有 元 素 是 真 值 ， 就 返回 True; any([]) 返回 False. 


10.6 节 将 深入 说 明 reduce 函数 ， 我 会 不 断 改进 一 个 示例 ， 为 这 个 函数 提供 有 意义 的 上 下 
文 。 本 书后 面 的 14.11 节 将 重点 讨论 可 迭代 对 象 ， 届 时 会 概述 各 个 归 约 函数 。 


为 了 使 用 高 阶 函 数 ， 有 时 创建 一 次 性 的 小 型 函数 更 便利 。 这 便 是 匿名 函数 存在 的 原因 ， 下 


一 节 将 会 讨论 。 












































S.3 匿名 函数 
lambda 关键 字 在 Python 表达 式 内 创建 匿名 函数 。 


然而 ，Python 简单 的 句法 限制 了 Lambda 函数 的 定义 体 只 能 使 用 纯 表达 式 。 换 句 话 
W, lambda 函数 的 定义 体 中 不 能 赋值 ， 也 不 能 使 用 while 和 try 等 Python 语句 。 


在 参数 列表 中 最 适合 使 用 匿名 函数 。 例 如 ， 示 例 5-7 使 用 lambda 表达 式 重 写 了 示例 5-4 
中 排序 押韵 单词 的 示例 ， 这 样 就 省 掉 了 reverse 函数 。 


示例 5-7 使 用 lambda 表达 式 反 转 拼写 ， 然 后 依 此 给 单词 列表 排序 

















>>> fruits = ['strawberry', 'fig', 'apple', ‘cherry', 'raspberry', 'banana'] 
>>> sorted(fruits, key=lambda word: word[::-1]) 


['banana', 'apple', 'fig', 'raspberry', 'strawberry', 'cherry'] 
>>> 











除了 作为 参数 传 给 高 阶 函 数 之 外 ，Python 很 少 使 用 匿名 函数 。 由 于 句法 上 的 限制 ， 非 平凡 
的 lambda 表达 式 要 么 难以 阅读 ， 要 么 无 法 写 出 。 


Lundh 提出 的 lambda 表达 式 重 构 秘笈 


人 
构 。 


(1) 编写 注释 ， 说 明 lambda 表达 式 的 作用 。 
(2) 研究 一 会 儿 注 释 ， 并 找 出 一 个 名 称 来 概括 注释 。 
(3) 把 lambda 表达 式 转换 成 def 语句 ， 使 用 那个 名 称 来 定义 函数 。 


(4) 删除 注释 。 
































这 几 步 摘自 “Functional Programming 
HOWTO” Chttps://docs.python.org/3/howto/functional.html) ， 这 是 一 篇 必 读 文章 。 


lambda 句法 只 是 语法 糖 : 与 def 语句 一 样 ，lambda 表达 式 会 创建 函数 对 象 。 这 是 
Python 中 几 种 可 调用 对 象 的 一 种 。 下 一 节 会 说 明 所 有 可 调用 对 象 。 








5.4 可 调用 对 象 


除了 用 户 定义 的 函数 ， 调 用 运算 符 O ()) 还 可 以 应 用 到 其 他 对 象 上 。 如 果 想 判断 对 象 
可 以 使 用 内 置 的 callable() 函数 。Python 数据 模型 文档 列 出 了 7 种 可 调用 对 





用 户 定 义 的 函数 

使 用 def 语句 或 lambda 表达 式 创 建 。 
内 置 函数 

使 用 C 语言 《CPython) 实现 的 函数 ， 如 len 或 time.strftime。 
内 置 方法 


使 用 C 语言 实现 的 方法 ， 如 dict .get。 














方法 
在 类 的 定义 体 中 定义 的 函数 。 








类 











调用 类 时 会 运行 类 的 new _ 方法 创建 一 个 实例 ， 然 后 运行 ” init _ 方法 ， 初 始 
化 实例 ， 最 后 把 实例 返回 给 调用 方 。 因 为 Python 没有 new 运算 符 ， 所 以 调用 类 相当 于 调 
用 函数 。〔 通 常 ， 调 用 类 会 创建 那个 类 的 实例 ， 不 过 履 盖 ”new ”方法 的 话 ， 也 可 能 
现 其 他 行为 。19.1.3 节 会 见 到 一 个 例子 。) 
类 的 实例 

如 果 类 定义 了 __call 方法， 那么 它 的 实例 可 以 作为 函数 调用 。 参 见 5.5 节 。 
生成 器 函数 

使 用 yield 关键 字 的 函数 或 方法 。 调 用 生成 器 函数 返回 的 是 生成 器 对 象 。 


oe Ra ECE RS ES ABT RAN 详情 参见 第 14 章 。 生 成 器 函数 还 可 以 作 
为 协 程 ， 参 见 第 16 章 。 


只 


Python 中 有 各 种 各 样 可 调用 的 类 型 ， 因 此 判断 对 象 能 否 调用 ， 最 安全 的 方法 是 使 用 内 
置 的 callable() 函数 : 


















































>>> abs, str, 13 
(<built-in function abs>, <class 'str'>, 13) 
>>> [callable(obj) for obj in (abs, str, 13)] 


[True, True, False] 





接 下 来 说 明 如 何 把 类 的 实例 变 成 可 调用 的 对 象 。 


5.5 ”用户 定 义 的 可 调用 类 型 


不 仅 Python 函数 是 真正 的 对 象 ， 任 何 Python 对 象 都 可 以 表现 得 像 函 数 。 为 此 ， 只 需 实现 
实例 方法 _call 。 





示例 5-8 实现 了 BingoCage 类 。 这 个 类 的 实例 使 用 任何 可 和 迭代 对 象 构建 
存储 一 个 随机 顺序 排列 的 列表 。 调 用 实例 会 取出 一 个 元 素 。 


示例 5-8 bingocall.py: 调用 BingoCage 实例 ， 从 打 乱 的 列表 中 取出 一 个 元 素 





而 且 会 在 内 部 


` 








import random 
class BingoCage: 


def _ init__(self, items): 
self._items = list(items) @ 
random.shuffle(self. items) @ 


def pick(self): © 
try: 
return self. _items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage') @ 


def _call_ (self): © 
return self.pick() 








@ init 接受 任何 可 迭代 对 象 ， 在 本 地 构建 一 个 副本 ， 防 止 列表 参数 的 意外 副作用 。 
四 shuffle 定 能 完成 工作 ， 因 为 self._items 是 列表 。 
O 起 主要 作用 的 方法 。 


O 如 果 self._items 为 空 ， 抛 出 异常 ， 并 设 定 错误 消息 。 















































加 bingo.pick() 的 快捷 方式 是 bingo()。 








下 面 是 示例 5-8 中 定义 的 类 的 简单 演示 。 注 意 ，bingo 实例 可 以 作为 函数 调用 ， 而 且 内 置 
的 callable(...) 函数 判定 它 是 可 调用 的 对 象 ， 








>>> bingo = BingoCage(range(3)) 
>>> bingo.pick() 
1 


>>> bingo() 
0 


>>> callable(bingo) 
True 














实现 __call__ 方法 的 类 是 创建 函数 类 对 象 的 简便 方式 ， 此 时 必须 在 内 部 维护 一 个 状态 ， 











让 它 在 调用 之 间 可 用 ， 例 如 BingoCage PRRI. MASAI. Re DAE 
函数 ， 而 且 有 时 要 在 多 次 调用 之 间 “ 记 住 ” 某 些 事 [ 例如 备 态 《memoization〉， 即 缓存 消耗 
大 的 计算 结果 ， 供 后 面 使 用 ]。 


创建 保有 内 部 状态 的 函数 ， 还 有 一 种 截然 不 同 的 方式 一 一 使 用 朵 包 。 闭 包 和 装饰 器 在 第 7 


章 讨 论 。 


下 面 讨论 把 函数 视 作对 象 处 理 的 男 一 方面 : 运行 时 内 省 。 





















































5.6 ”函数 内 省 


__doc ， 函 数 对 象 还 有 很 多 属性 。 使 用 dir 函数 可 以 探知 factorial 具有 下 述 属 








Pam) 











>>> dir(factorial) 

['__annotations__', ' call ', ' class ', ' Closure ', '_code_', 
"_defaults ', '_ delattr__', '_dict ', '_dir__', '_ doc ',' eq '， 
'_ format ', ' ge ',' get ', ' getattribute ', ' globals_', 
”gt ', '_hash_', '_init ', '_ kwdefaults ', '_le_', '_It_', 


"_module ', ‘__name_', '_ne_', ‘__new_', ' qualname ', ' reduce '， 
'_reduce ex ', '_ repr ', '_ setattr ', ' sizeof ', '_str_', 
"__subclasshook__'] 

>>> 











其 中 大 多 数 属性 是 Python 对 象 共有 的 。 本 节 讨 论 与 把 函数 视 作 对 象 相 关 的 几 个 属性 ， 先 
从 _dict _ 开始 。 


与 用 户 定 义 的 常规 类 一 样 ， 函 数 使 用 _ dict 属性 存储 赋予 它 的 用 户 属 性 。 这 相当 于 一 

种 基本 形式 的 注解 。 一 般 来 说 ， 为 函数 随意 赋予 属性 不 是 很 常见 的 做 法 ， 但 是 Django HE 

架 这 么 做 了 。 参 见 “The Django admin site” 文 档 
Chttps://docs.djangoproject.con/en/1.10/ref/contrib/admin/) 中 对 

short_description, boolean 和 allow tags 属性 的 说 明 。 这 篇 Django 文档 中 举 了 下 

述 示例 ， 把 short_description 属性 赋予 一 个 方法 ，Django 管理 后 台 使 用 这 个 方法 时 ， 

在 记录 列表 中 会 出 现 指 定 的 描述 文本 : 























nm 























UH 


















































def upper_case_name(obj): 
return ("%s %s" % (obj.first_name, obj.last_name)).upper() 
upper_case_name.short_description = 'Customer name' 























下 面 重点 说 明 函 数 专 有 而 用 户 定义 的 一 般 对 象 没 有 的 属性 。 计 算 两 个 属性 集合 的 差 集 便 能 
得 到 函数 专 有 属性 列表 ( 见 示例 5-9) 。 


示例 5-9 列 出 常规 对 象 没 有 而 函数 有 的 属性 






































>>> class C: pass # O 

>>> obj = C() #@ 

>>> def func(): pass # © 

>>> sorted(set(dir(func)) - set(dir(obj))) # © 

['__annotations__', ‘'_call__', '__closure__', ' Code ', '__defaults__', 
' get ',' globals ', ' kwdefaults ', ' name ', ' qualname '"] 
>>> 








@ 创建 一 个 空 的 用 户 定义 的 类 。 
(2 创建 一 个 实例 。 








© 创建 一 个 空 函数 。 

@@ 计算 差 集 ， 然 后 排序 ， 得 到 类 的 实例 没有 而 函数 有 的 属性 列表 。 
表 5-1 对 示例 5-9 中 列 出 的 属性 做 了 简要 说 明 。 

表 5-1: 用 户 定义 的 函数 的 属性 
































名 称 类 型 说 明 





Ak 、 Spr 
__annotations _ E fi 














-call j 运算 符 ， 即 可 调用 对 象 协议 

















__closure__ 函数 闭 包 ， 即 自由 变量 的 绑 定 〈 通 常 是 None ) 









































__code__ 编译 成 字 节 码 的 函数 元 数据 和 函数 定义 体 








__defaults__ 形式 参数 的 默认 

















__get__ 实现 只 读 描述 符 协议 〈 参 见 第 20 BE) 
































__globals__ PRAT ERY 





__kwdefaults__ 仅 限 关键 字形 式 参数 的 默认 值 


__name__ Ry A, BK 














函数 的 限定 名 称 ， 如 Random.choice ( 参阅 PEP 
3155, https://www.python.org/dev/peps/pep-3 155/) 





__qualname__ 














后 面 几 节 会 讨论 defaults _ 、_ code 和 annotations 属性 ，IDE 和 框架 使 
用 它们 提取 关于 函数 签名 的 信息 。 但 是 ， 为 了 深入 了 解 这 些 属性 ， 我 们 要 先 探 讨 Python 
为 声明 函数 形 参 和 传 入 实 参 所 提供 的 强大 句法 。 
































5.7 ”从 定位 参数 到 仅 限 关键 字 参 数 


Python 最 好 的 特性 之 一 是 提供 了 极为 灵活 的 参数 处 理 机 制 ， 而 且 Python 3 进一步 提供 了 仅 
限 关 键 字 参数 (keyword-only argument) 。 与 之 密切 相关 的 是 ， 调 用 函数 时 使 用 * 和 

*##“ 展 开 ” 可 和 迭代 对 象 ， 映 射 到 单个 参数 。 下 面 通过 示例 5-10 中 的 代码 展示 这 些 特性 ， 实 
际 使 用 的 代码 在 示例 5-11 中 。 


示例 5-10 tag 函数 用 于 生成 HIML 标签 ， 使 用 名 为 cls 的 关键 字 参 数 传 
入 “class” 属 性 ， 这 是 一 种 变通 方法 ， 因 为 “ class” Æ Python 的 关键 字 




































































def tag(name, *content, cls= None, **attrs): 
"" 生 成 一 个 或 多 个 HTML 标 签 "" 
if cls is not None: 

attrs['class'] = cls 





if attrs: 
attr_str = ''.join(' %s="%s"' % (attr, value) 
for attr, value 
in sorted(attrs.items())) 
else: 
attr_str = '' 
if content: 


return '\n'.join('<%s%s>%s</%s>' % 
(name, attr_str, c, name) for c in content) 
else: 
return '<%s%s />' % (name, attr_str) 








tag 函数 的 调用 方式 很 多 ， 如 示例 5-11 所 示 。 
示例 5-11 tag 函数 ( 见 示例 5-10) 众多 调用 方式 中 的 几 种 


>>> tag('br') ©O 
"<br />' 
>>> tag('p', ‘hello') @ 
"<p>hello</p>' 
>>> print(tag('p', ‘hello', 'world')) 
<p>hello</p> 
<p>world</p> 
>>> tag('p', ‘hello', id=33) © 
"<p id="33">hello</p>' 
>>> print(tag('p', 'hello', 'world', cls='sidebar')) @ 
<p class="sidebar">hello</p> 
<p class="sidebar">world</p> 
>>> tag(content='testing', name="img") © 
"<img PES ee />' 
>>> my_tag = {'name': ‘img', ‘title’: ‘Sunset Boulevard’, 
"src': 'sunset.jpg', ‘cls': 'framed'} 
>>> > tag(**my tag) © 
"<img class="framed" src="sunset.jpg" title="Sunset Boulevard" />' 


O 传 入 单个 定位 参数 ， 生成 一 个 指定 名 称 的 空 标签 。 














O 第 一 个 参数 后 面 的 任意 个 参数 会 被 *content 捕获 ， 存 入 一 个 元 组 。 

© tag 函数 签名 中 没有 明确 指定 名 称 的 关键 字 参 数 会 被 **attrs 捕获 ， 存 入 一 个 字典 。 
O cls 参数 只 能 作为 关键 字 参 数 传 入 。 

@ 调用 tag 函数 时 ， 即 便 第 一 个 定位 参数 也 能 作为 关键 字 参 数 传 入 。 


Q 在 my_tag 前 面 加 上 **， 字 典 中 的 所 有 元 素 作为 单个 参数 传 入 ， 同 名 键 会 绑 定 到 对 应 
的 具名 参数 上 ， 余 下 的 则 被 **attrs 捕获 。 


仅 限 关 键 字 参 数 是 Python 3 新 增 的 特性 。 在 示例 5-10 中 ，cls 参数 只 能 通过 关键 字 参 数 
指定 ， 它 一 定 不 会 捕获 未 命名 的 定位 参数 。 定 义 函 数 时 知 想 指定 仪 限 关 键 字 参数 ， 要 把 它 
们 放 到 前 面 有 * 的 参数 后 面 。 如 果 不 想 支持 数量 不 定 的 定位 参数 ， 但 是 想 支 持 仅 限 关 键 
字 参 数 ， 在 签名 中 放 一 个 *， 如 下 所 示 : 




























































































>>> def f(a, *, b): 
return a, b 


>>> F(1, b=2) 
(1, 2) 

















注意 ， 仅 限 关 键 字 参 数 不 一 定 要 有 默认 值 ， 可 以 像 上 例 中 b 那样 ， 强 制 必须 传 入 实 参 。 
下 面 说 明 函 数 参 数 的 内 省 ， 以 一 个 Web 框架 中 的 示例 为 引子 ， 然 后 再 讨论 内 省 技术 。 




















58 ”获取 关于 参数 的 信息 


HTTP 微 框架 Bobo 中 有 个 使 用 函数 内 省 的 好 例子 。 示 例 5-12 是 对 Bobo 教程 中 “Hello 
world” 应 用 的 改编 ， 说 明了 内 省 怎么 使 用 。 


示例 5-12 Bobo 知道 hello 需要 person BA, JF AM HTTP 请 求 中 获取 它 











import bobo 


@bobo.query('/') 


def hello(person): 
return 'Hello %s!' % person 




















bobo. query 装饰 器 把 一 个 普通 的 函数 (如 hello) 与 框架 的 请 求 处 理 机 制 集成 起 来 了 。 
装饰 器 会 在 第 7 章 讨 论 ， 这 不 是 这 个 示例 的 关键 。 这 里 的 关键 是 ，Bobo 会 内 省 hello K 
数 ， 发 现 它 需要 一 个 名 为 person 的 参数 ， 然 后 从 请 求 中 获取 那个 名 称 对 应 的 参数 ， 将 其 
传 给 hello 函数 ， 因 此 程序 员 根 本 不 用 触 碰 请 求 对 象 。 


安装 Bobo， 然 后 启动 开发 服务 器 ， 执 行 示例 5-12 中 的 脚本 《例如 ，bobo -f 
hello.py) 。 访 问 http://localhost:8080/ 看 到 的 消息 是 “Missing form variable 
person”, HTTP 状态 码 是 403。 这 是 因为 ，Bobo 知道 调用 hello 函数 必须 传 入 person 参 
但 是 在 请 求 中 找 不 到 同名 参数 。 示 例 5-13 在 shell 会 话 中 使 用 curl 展示 了 这 个 行 


示例 5-13 如果 请 求 中 缺少 函数 的 参数 ，Bobo 返回 403 forbidden "ADV; curl -i 的 
作用 是 把 首部 转 储 到 标准 输出 


















































$ curl -i http://localhost :8080/ 
HTTP/1.0 403 Forbidden 

Date: Thu, 21 Aug 2014 21:39:44 GMT 
Server: WSGIServer/@.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 103 


<html> 

<head><title>Missing parameter</title></head> 
<body>Missing form variable person</body> 
</html> 











然而 ， 如 果 访 问 http://1ocalhost:8686/?person=Jim， 响 应 会 变 成 字符 串 'Hello 
Jim!'， 如 示例 5-14 所 示 。 


示例 5-14 传 入 所 需 的 person 参数 才能 得 到 OK 响应 


$ curl -i http://localhost :8080/?person=Jim 
HTTP/1.@ 200 OK 





Date: Thu, 21 Aug 2014 21:42:32 GMT 
Server: WSGIServer/@.2 CPython/3.4.1 
Content-Type: text/html; charset=UTF-8 
Content-Length: 10 


Hello Jim! 








Bobo 是 怎么 知道 函数 需要 哪个 参数 的 呢 ? 它 又 是 怎 


怎么 知道 


参数 有 设 有 默认 值 呢 ? 








函数 对 象 有 个 defaults ”属性 ， 它 的 值 是 一 个 元 组 ， 人 
参数 的 默认 值 。 仅 限 关 键 字 参数 的 默认 值 在 __kwdefaults_ ”属性 中 。 然 而 ， 参 数 的 名 
称 在 __code__ 属性 中 ， 它 的 值 是 一 个 code 对 象 引 用 ， 自 身 也 有 很 多 属性 。 


为 了 说 明 这 些 属性 的 用 途 ， 下 面 在 clip.py 模块 中 定义 clip 函数 ， 如 示例 5-15 所 示 ， 然 


























后 再 审查 它 。 
示例 5-15 在 指定 长 度 附近 截断 字符 串 的 函数 








def clip(text, max_len=8@): 
"" 在 max_len 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 








end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', ©, max_len) 
if space_before >= @: 
end = space_before 
else: 
space_after = text.rfind(' ', max_len) 
if space_after >= 0: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 











示例 5-16 审查 示例 5-15 中 定义 的 clip MeL, AA 


defaults 、 code .co _ varnames 和 code 


示例 5-16 提取 关于 函数 参数 的 信息 














__.co_argcount 的 值 。 





>>> from clip import clip 

>>> clip. defaults _ 

(8, ) 

>>> clip. code # doctest: +ELLIPSIS 

<code object clip at @x...> 

>>> clip. code .co varnames 

('text', 'max_len', 'end', 'space before', 'space after') 
>>> clip. code .co argcount 

2 











可 以 看 出 ， 这 种 组 织 信息 的 方式 并 不 是 最 便利 的 。 参 数 名 称 在 code .co_varnames 
由， 不 过 里 面 还 有 函数 定义 体 中 创建 的 局 部 变量 ”因此 ， BNP NEA, N 






































MEH  code__.co_argcount 确定 。 顺 便 说 一 下 ， 这 里 不 包含 前 缀 为 * 或 ** 的 变 长 
参数 。 参 数 的 默认 值 只 能 通过 它们 在 defaults _ 元 组 中 的 位 置 确定 ， 因 此 要 从 后 向 
前 扫描 才能 把 参数 和 默认 值 对 应 起 来 。 在 这 个 示例 中 clip 函数 有 两 个 参数 ，text 和 




























































































max_len， 其 中 一 个 有 默认 值 ， 即 88， 因 此 它 必然 属于 最 后 一 个 参数 ， 即 max_len。 这 
有 违 常理 。 














幸好 ， 我 们 有 更 好 的 方式 一 一 使 用 inspect 模块 。 
下 面 来 看 一 下 示例 5-17。 
示例 5-17 提取 函数 的 签名 ? 


?在 Python 3.5 中 ， 本 示例 的 sig 的 值 是 ， <Signature (text，max_len=86)>。 一 一 编者 注 








>>> from clip import clip 

>>> from inspect import signature 

>>> sig = signature(clip) 

>>> sig # doctest: +ELLIPSIS 

<inspect.Signature object at @x...> 

>>> str(sig) 

' (text, max_len=8@)' 

>>> for name, param in sig.parameters.items(): 
print(param.kind, ':', name, '=', param.default) 


POSITIONAL_OR_KEYWORD : text = <class 'inspect._empty'> 
POSITIONAL_OR_KEYWORD : max_len = 80 





这 样 就 好 多 了 。inspect.signature AURE —^A inspect.Signature 对 象 ， 它 有 一 
个 parameters 属性 ， 这 是 一 个 有 序 映射 ， 把 参数 名 和 inspect.Parameter 对 象 对 应 起 
来 。 各 个 Parameter 属性 也 有 自己 的 属性 ， 例 如 name、default 和 kind。 特 殊 的 
inspect._empty 值 表示 没有 默认 值 ， 考 虑 到 None 是 有 效 的 默认 值 〈 也 经 常 这 么 做 ) ， 
而 且 这 么 做 是 合理 的 。 


kind 属性 的 值 是 _ParameterKind 类 中 的 5 个 值 之 一 ， 列 举 如 下 。 



























































POSITIONAL_OR_KEYWORD 
可 以 通过 定位 参数 和 关键 字 参 数 传 入 的 形 参 〈 多 数 Python 函数 的 参数 属于 此 类 ) 。 
VAR_POSITIONAL 


定位 参数 元 组 。 














VAR_KEYWORD 
关键 字 参 数字 典 。 
KEYWORD_ONLY 


仅 限 关键 字 参 数 (Python 3 新 增 ) 。 














POSITIONAL_ONLY 


仅 限 定位 参数 ， 目 前 ，Python 声明 函数 的 句法 不 支持 ， 但 是 有 些 使 用 C 语言 实现 且 
不 接受 关键 字 参 数 的 函数 〈 如 divmod) XF. 


除了 name, default 和 kind, inspect.Parameter 对 象 还 有 一 个 annotation GE 
解 ) 属性 ， 它 的 值 通 常 是 inspect._empty， 但 是 可 能 包含 Python 3 新 的 注解 句法 提供 的 
函数 签名 元 数据 〈 注 解 在 下 一 节 讨 论 ) 。 

inspect.Signature 对 象 有 个 bind 方法 ， 它 可 以 把 任意 个 参数 绑 定 到 签名 中 的 形 参 

上 上， 所 用 的 规则 与 实 参 到 形 参 的 匹配 方式 一 样 。 框 架 可 以 使 用 这 个 方法 在 真正 调用 函数 前 
验证 参数 ， 如 示例 5-18 所 示 。 


示例 5-18 把 tag 函数 〈 见 示例 5-10) 的 签名 绑 定 到 一 个 参数 字典 上 3 




































































3 在 Python 3.5 中 ， 本 示例 的 bound_args 的 值 是 : <BoundArguments (name='img', cls='framed', attrs= 


{'title': 'Sunset Boulevard', 'src': 'sunset.jpg'})>。 一 一 编者 注 








>>> import inspect 

>>> sig = inspect.signature(tag) © 

>>> my_tag = {'name': ‘img’, ‘title’: ‘Sunset Boulevard’, 
oie "src': 'sunset.jpg', ‘cls': 'framed'} 

>>> bound_args = sig.bind(**my_ tag) @ 

>>> bound_args 

<inspect.BoundArguments object at @x...> © 

>>> for name, value in bound_args.arguments.items(): @ 


print(name, '=', value) 
name = img 
cls = framed 
attrs = {'title': ‘Sunset Boulevard’, 'src': 'sunset.jpg'} 


>>> del my_tag['name'] © 
>>> bound_args = sig.bind(**my_tag) © 
Traceback (most recent call last): 





TypeError: 'name' parameter lacking default value 
@ 获取 tag 函数 〈 见 示例 5-10) 的 签名 。 
O 把 一 个 字典 参数 传 给 .bind( ) 方法 。 


© 得 到 一 个 inspect.BoundArguments 对 象 。 











@ i&{R bound_args.arguments (一 个 OrderedDict WR) 中 的 元 素 ， 显 示 参 数 的 名 
称 和 值 。 


O 把 必须 指定 的 参数 name 从 my_tag 中 删除 。 
@ 调用 sig.bind(**my tag)， 抛 出 TypeError， 抱 怨 缺 少 name BA. 


这 个 示例 在 inspect 模块 的 帮助 下 ， 展 示 了 Python 数据 模型 把 实 参 绑 定 给 函数 调用 中 的 














形 参 的 机 制 ， 这 与 解释 器 使 用 的 机 制 相同 。 


框架 和 IDE 等 工具 可 以 使 用 这 些 信息 验证 代码 。Python 3 的 男 一 个 特性 一 一 函数 注解 一 一 
增进 了 这 些 信息 的 用 途 ， 参 见 下 一 节 。 

















5.9 函数 注解 


Python 3 提供 了 一 种 句法 ， 用 于 为 函数 声明 中 的 参数 和 返回 值 附 加 元 数据 。 示 例 5-19 是 示 
Bill 5-15 添加 注解 后 的 版 本 ， 二 者 唯一 的 区 别 在 第 一 行 。 


示例 5-19 有 注解 的 clip 函数 




















def clip(text: str, max_len:'int > @'=80) -> str: © 
"" 在 max_len 前 面 或 后 面 的 第 一 个 空格 处 截断 文本 








end = None 
if len(text) > max_len: 
space_before = text.rfind(' ', ©, max_len) 
if space_before >= @: 
end = space_before 
else: 
space_after = text.rfind(' ', max_len) 
if space_after >= @: 
end = space_after 
if end is None: # 没 找到 空格 
end = len(text) 
return text[:end].rstrip() 











O 有 注解 的 函数 声明 。 


函数 声明 中 的 各 个 参数 可 以 在 : 之 后 增加 注解 表达 式 。 如 果 参 数 有 默认 值 ， 注 解放 在 参 
数 名 和 = 号 之 间 。 如 果 想 注解 返回 值 ， 在 ) 和 函数 声明 末尾 的 : 之 间 添 加 -> 和 一 个 表达 
式 。 那 个 表达 式 可 以 是 任何 类 型 。 注 解 中 最 常用 的 类 型 是 类 (如 str 或 int) 和 字符 是 
(如 'int > @') 。 在 示例 5-19 中 ，max_len 参数 的 注解 用 的 是 字符 串 。 


注解 不 会 做 任何 处 理 ， 只 是 存储 在 函数 的 _annotations _ 属性 (一 个 字典 ) P: 
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>>> from clip _annot import clip 


>>> clip. annotations _ 
{'text': <class 'str'>, 'max_len': ‘int > @', ‘return': <class 'str'>} 








'return' 键 保 存 的 是 返回 值 注解 ， 即 示例 5-19 pe ARAL -> 标记 的 部 分 。 


Python 对 注解 所 做 的 唯一 的 事情 是 ， 把 它们 存储 在 函数 的 ”annotations ”属性 里 。 仅 
此 而 已 ，Python 不 做 检查 、 不 做 强制 、 不 做 验证 ， 什 么 操作 都 不 做 。 换 名 话说， 注解 对 
Python 解释 器 没有 任何 意义 。 注 解 只 是 元 数据 ， 可 以 供 IDE、 框 架 和 装饰 器 等 工具 使 用 。 
写作 本 书 时 ， 标 准 库 中 还 没有 什么 会 用 到 这 些 元 数据 ， 唯 有 inspect.signature() 函数 
知道 怎么 提取 注解 ， 如 示例 5-20 所 示 。 


示例 5-20 ”从 函数 签名 中 提取 注解 


>>> from clip annot import clip 
>>> from inspect import signature 





















































>>> sig = signature(clip) 
>>> sig.return_annotation 
<class 'str'> 
>>> for param in sig.parameters.values(): 
note = repr(param. annotation) .ljust(13) 


russe print(note, ':', param.name, '=', param.default) 
<class 'str'> : text = <class ‘inspect. _empty'> 
"int > @' : max_len = 80 








signature 函数 返回 一 个 Signature 对 象 ， 它 有 一 个 return_annotation 属性 和 一 个 
parameters 属性 ， 后 者 是 一 个 字典 ， 把 参数 名 映射 到 Parameter 对 象 上 。 每 个 
Parameter 对 象 自己 也 有 annotation 属性 。 示 例 5-20 用 到 了 这 几 个 属性 。 


在 未 来 ，Bobo 等 框架 可 以 文 持 和 广 解 ， 并 进一步 自动 处 理 请 求 。 例 如 ， 使 用 price:float 
注解 的 参数 可 以 自动 把 查询 字符 串 转换 成 函数 期 待 的 float 类 型 ， quantity: ‘int > 
OQ" 这样 的 字符 串 注解 可 以 转换 成 对 参数 的 验证 


函数 注解 的 最 大 影响 或 许 不 是 让 Bobo 等 框架 自动 设置 ， 而 是 为 IDE 和 lint 程序 等 工具 中 
的 静态 类 型 检查 功能 提供 额外 的 类 型 信息 。 


深入 分 析 函 数 之 后 ， 本 章 余 下 的 内 容 介绍 标准 库 中 为 函数 式 编 程 提 供 支 持 的 常用 包 。 
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5.10 ”支持 函数 式 编程 的 包 


虽然 Guido 明确 表明 ，Python 的 目标 不 是 变 成 函数 式 编程 语言 ， 但 是 得 益 于 operator 和 
Pi 等 包 的 支持 ， 函 数 式 编程 风格 也 可 以 信 手 牛 来 。 接 下 来 的 两 节 分 别 介 绍 这 两 
E. 





























5.10.1 _ operator 模块 


在 函数 式 编 程 中 ， 经 常 需要 把 算术 运算 符 当 作 函 数 使 用 。 例 如 ， 不 使 用 递归 计算 阶乘 。 求 
和 可 以 使 用 sum 函数 ， 但 是 求 积 则 没有 这 样 的 函数 。 我 们 可 以 使 用 reduce 函数 (5.2.1 
节 是 这 么 做 的 ) ， 但 是 需要 一 个 函数 计算 序列 中 两 个 元 素 之 积 。 示 例 5-21 展示 如 何 使 用 
lambda 表达 式 解决 这 个 问题 。 


示例 5-21 使 用 reduce 函数 和 一 个 匿名 函数 计算 阶乘 




















from functools import reduce 
def fact(n): 


return reduce(lambda a, b: a*b, range(1, n+1)) 




















operator 模块 为 多 个 算术 运算 符 提 供 了 对 应 的 函数 ， 从 而 避免 编写 lambda a, b: a*b 
这 种 平凡 的 匿名 函数 。 使 用 算术 运算 符 函 数 ， 可 以 把 示例 5-21 改写 成 示例 5-22 那样 。 


示例 5-22 ”使 用 reduce fil operator .mul 函数 计算 阶乘 








from functools import reduce 
from operator import mul 


def fact(n): 
return reduce(mul, range(1, n+1)) 














operator 模块 中 还 有 一 类 函数 ， 能 蔡 代 从 序列 中 取出 元 素 或 读 取 对 象 属性 的 Lambda 表 
达 式 : 因此 ，itemgetter 和 attrgetter 其 实 会 自行 构建 函数 。 


示例 5- 23 展示 了 itemgetter 的 常见 用 途 : 根据 元 组 的 某 个 字段 给 元 组 列表 排序 。 在 这 
个 示例 中 ， 按 照 国 家 代码 (第 2 个 字段 ) 的 顺序 打印 各 个 城市 的 信息 ho HE 

= itemgetter(1) 的 作用 与 lambda fields: fields[1] 一 样 : 创建 一 个 接受 集合 

的 函数 ， 返 回 索 引 位 1 上 的 元 素 。 


示例 5-23 ”演示 使 用 itemgetter 排序 一 个 元 组 列表 (数据 来 自 示 例 2-8) 
































>>> metro_data = [ 
('Tokyo', 'JP', 36.933, (35.689722, 139.691667)), 
(‘Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
(‘Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
(‘New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 


os (‘Sao Paulo’, 'BR', 19.649, (-23.547778, -46.635833)), 
sesi] 
>>> 
>>> from operator import itemgetter 

>>> for city in sorted(metro_data, key=itemgetter(1)): 
print(city) 


(‘Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)) 
(‘Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)) 
(‘Tokyo', 'JP', 36.933, (35.689722, 139.691667) ) 

(‘Mexico City', 'MX', 20.142, (19.433333, -99.133333)) 
("New York-Newark', 'US', 20.104, (40.808611, -74.020386)) 











如 果 把 多 个 参数 传 给 itemgetter， 它 构建 的 函数 会 返回 提取 的 值 构成 的 元 组 : 


>>> cc_name = itemgetter(1，6) 
>>> for city in metro_data: 
print(cc_name(city)) 


('JP', 'Tokyo') 

(‘IN', ‘Delhi NCR‘) 
('MX', "Mexico City') 
('US', "New York-Newark' ) 
('BR', ‘Sao Paulo’) 

>>> 














itemgetter 使 用 [] 运算 符 ， 因 此 它 不 仅 支 持 序 列 ， 还 支持 映射 和 任何 实现 
_ getitem _ 方法 的 类 。 


attrgetter 与 itemgetter 作用 类 似 ， 它 创建 的 函数 根据 名 称 提取 对 象 的 属性 。 如 果 把 
多 个 属性 名 传 给 attrgetter， 它 也 会 返回 提取 的 值 构成 的 元 组 。 此 外 ， 如 果 参 数 名 中 包 
含 .〈 点 号 ) ，attrgetter 会 深入 坎 套 对 象 ， 获 取 指 定 的 属性 。 这 些 行为 如 示例 5-24 所 
示 。 这 个 控制 台 会 话 不 短 ， 因 为 我 们 要 构建 一 个 藤 套 结构 ， 这 样 才 能 展示 attrgetter 如 
何 处 理 包含 点 号 的 属性 名 。 


示例 5-24 定义 一 个 namedtuple， 名 为 metro_data〔 与 示例 5-23 中 的 列表 相 
同 ) ， 演 示 使 用 attrgetter 处 理 它 




























































































>>> from collections import namedtuple 

>>> LatLong = namedtuple('LatLong', ‘lat long') #@ 

>>> Metropolis = namedtuple('Metropolis', ‘name cc pop coord') #@ 

>>> metro_areas = [Metropolis(name, cc, pop, LatLong(lat, long)) # © 
for name, cc, pop, (lat, long) in metro_data] 

>>> metro_areas[@] 

Metropolis(name='Tokyo', cc='JP', pop=36.933, coord=LatLong(lat=35.689722, 

long=139.691667) ) 

>>> metro_areas[@].coord.lat # @ 

35.689722 

>>> from operator import attrgetter 

>>> name_lat = attrgetter('name', 'coord.lat') # O 

>>> 

>>> for city in sorted(metro_areas, key=attrgetter('coord.lat')): # O 
print(name_lat(city)) # Q 





('Sao Paulo', -23.547778) 
(‘Mexico City’, 19.433333) 
("Delhi NCR', 28.613889) 
(‘Tokyo', 35.689722) 

('New York-Newark', 40.808611) 








@ 使 用 namedtuple 定义 LatLong. 
© 再 定义 Metropolis. 


© 使 用 Metropolis 实例 构建 metro_areas 列表 ; 注意 ， 我 们 使 用 拒 套 的 元 组 拆 包 提取 
(lat，long)， 然 后 使 用 它们 构建 LatLong， 作 为 Metropolis 的 coord 属性 。 

















四 深入 metro_areas[6]， 获 取 它 的 纬度 。 

定义 一 个 attrgetter， 获 取 name 属性 和 髓 套 的 coord.1at 属性 。 
O 再 次 使 用 attrgetter， 按 照 纬 度 排序 城市 列表 。 

@ 使 用 标号 @ 中 定义 的 attrgetter， 只 显示 城市 名 和 纬度 。 


The operator 模块 中 定义 的 部 分 函数 〈 和 省略 了 以 _ 开 头 的 名 称 ， 因 为 它们 基本 上 有 是 
现 细节 ) : 























Ye 








‘Python 3.5 中 增加 了 imatmul 和 matmul。 一 一 编者 注 








>>> [name for name in dir(operator) if not name.startswith('_')] 
['abs', 'add', ‘and_', ‘attrgetter', 'concat', ‘contains’, 
"countOf', ‘delitem', ‘eq', ‘floordiv', 'ge', ‘getitem', ‘gt’, 
‘iadd', ‘iand', ‘iconcat', ‘ifloordiv', ‘ilshift', ‘imod', ‘imul', 
"index', 'indexOf', 'inv', ‘invert', ‘ior', ‘ipow', ‘irshift', 
'is_', ‘is_not', ‘isub', ‘itemgetter', ‘itruediv', 'ixor', ‘le’, 
"length_hint', ‘lshift', 'lt', 'methodcaller', 'mod', 'mul', 'ne', 
'neg', ‘not_', ‘or_', ‘pos’, ‘pow’, ‘rshift', ‘setitem', ‘sub’, 
"truediv', ‘truth’, 'xor'] 














这 52 个 名 称 中 大 部 分 的 作用 不 言 而 喻 。 以 i 开头、 后 面 是 男 一 个 运算 符 的 那些 名 称 〔 如 
iadd、iand 等 ) ， 对 应 的 是 增 a de (如 +=、&= 等 ) 。 如 果 第 一 个 参数 是 可 变 
2 ae 么 这 些 运 算 符 函 数 会 就 地 修改 它 ， 否 则 ， 作 用 与 不 带 i 的 函数 一 样 ， 直 接 返 回 运 


在 operator 模块 余下 的 函数 中 ， 我 们 最 后 介绍 一 下 methodcaller。 它 的 作用 与 
attrgetter 和 itemgetter 类 似 ， 它 会 自行 创建 函数 。methodcaller 创建 的 函数 会 在 
对 象 上 调用 参数 指定 的 方法 ， 如 示例 5-25 所 示 。 


示例 5-25 methodcaller 使 用 示例 : 第 二 个 测试 展示 绑 定 额外 参数 的 方式 









































>>> from operator import methodcaller 
>>> s = 'The time has come' 
>>> upcase = methodcaller('upper' ) 


>>> upcase(s) 

"THE TIME HAS COME" 

>>> hiphenate = methodcaller('replace', ' ', '-') 
>>> hiphenate(s) 

"The-time-has-come' 








示例 5-25 中 的 第 一 个 测试 只 是 为 了 展示 methodcaller 的 用 法 ， 如 果 想 把 str.upper fF 
为 函数 使 用 ， 只 需 在 str 类 上 调用 ， 并 传 入 一 个 字符 串 参 数 ， 如 下 所 示 : 


>>> str.upper(s) 
"THE TIME HAS COME’ 


示例 5-25 中 的 第 二 个 测试 表明 ，methodcaller 还 可 以 冻结 某 些 参 数 ， 也 就 是 部 分 应 用 
(partial application) ， 这 与 functools.partial 函数 的 作用 类 似 。 详 情 参见 下 一 节 。 











5.10.2 ”使 用 functools .partial 冻 结 参数 


functools 模块 提供 了 一 系列 高 阶 函 数 ， 其 中 最 为 人 熟知 的 或 许 是 reduce, RIIE 5.2.1 
节 已 经 介绍 过 。 余 下 的 函数 中 ， 最 有 用 的 是 partial 及 其 变 体 ，partialmethod。 


functools.partial 这 个 高 阶 函数 用 于 部 分 应 用 一 个 函数 。 部 分 应 用 是 指 ， 基 于 一 个 函 
数 创建 一 个 新 的 可 调用 对 象 ， 把 原 函 数 的 某 些 参 数 固定 。 使 用 这 个 函数 可 以 把 接受 一 个 或 
多 个 参数 的 函数 改编 成 需要 回调 的 API， 这 样 参 数 更 少 。 示 例 5-26 做 了 简单 的 演示 。 


示例 5-26 使 用 partial 把 一 个 两 参数 函数 改编 成 需要 单 参数 的 可 调用 对 象 
















































































>>> from operator import mul 

>>> from functools import partial 

>>> triple = partial(mul, 3) © 

>>> triple(7) @ 

21 

>>> list(map(triple, range(1, 10))) © 
[3, 6, 9, 12, 15, 18, 21, 24, 27] 

















O 使 用 mul 创建 triple 函数 ， 把 第 一 个 定位 参数 定 为 3。 

O 测试 triple 函数 。 

© 在 map 中 使 用 triple; 在 这 个 示例 中 不 能 使 用 mul. 

使 用 4.6 节 介 绍 的 unicode.normalize 函数 再 举 个 例子 ， 这 个 示例 更 有 实际 意义 。 如 果 
处 理 多 国语 言 编写 的 文本 ， 在 比较 或 排序 之 前 可 能 会 想 使 用 


unicode.normalize('NFC', s) 处 理 所 有 字符 串 s。 如 果 经 常 这 么 做 ， 可 以 定义 一 个 
nfc 函数 ， 如 示例 5-27 所 示 。 










































































示例 5-27 使 用 partial 构建 一 个 便利 的 Unicode 规范 化 函数 





>>> import unicodedata, functools 


>>> nfc = functools.partial(unicodedata.normalize, 'NFC') 


>>> s1 = 'café' 

>>> s2 = 'cafe\u@301' 
>>> s1, s2 

('café', 'café') 

>>> s1 == s2 

False 

>>> nfc(s1) == nfc(s2) 
True 

















partial HP-DA- AA, EEA REE A 


2 在 示例 5-10 中 定义 的 tag 函数 上 使 用 partial， 冻 结 一 个 定位 参数 和 一 个 关键 
TER. 


示例 5-28 把 partial 应 用 到 示例 5-10 中 定义 的 tag 函数 上 








>>> from tagger import tag 

>>> tag 

<function tag at @x102@6d1ee> @ 

>>> from functools import partial 

>>> picture = partial(tag, ‘img', cls='pic-frame') @ 
>>> picture(src='wumpus. jpeg’ ) 

‘<img class="pic-frame" src="wumpus.jpeg" />' © 

>>> picture 

functools.partial(<function tag at @x102@6d1e@>, ‘img', cls='pic-frame') @ 
>>> picture. func 

<function tag at 0x10206d1e0> 

>>> picture.args 

( img", ) 

>>> picture.keywords 

{'cls': 'pic-frame'} 


@ 从 示例 5-10 中 导入 tag 函数 ， 查 看 它 的 ID。 
四 使 用 tag 创建 picture 函数 ， 把 第 一 个 定位 参数 固定 为 "img'， 把 cls 关键 字 参 数 固 


定 为 "pic-frame '。 
© picture 的 行为 符合 预期 。 


© partial() 返回 一 个 functools.partial wR. 5 





























sfunctools.py 的 源码 Chttps//hg.python.org/cpython/file/default/Lib/functools.py) 表明 ，functools.partial 类 是 使 用 C 语 
言 实现 的 ， 而 且 默认 使 用 这 个 实现 。 如 果 这 个 实现 不 可 用 ， 从 Python 3.4 起 ，functools 模块 为 partial 提供 了 纯 
Python 实现 。 




































































@ functools.partial 对 象 提 供 了 访问 原 函 数 和 固定 参数 的 属性 。 


functools.partialmethod 函数 (Python 3.4 新 增 ) 的 作用 与 partial 一 样 ， 不 过 是 用 
于 处 理 方法 的 。 





























functools 模块 中 的 lru_cache 函数 令 人 印象 深刻 ， 它 会 做 备 筷 Cmemoization) ， 这 是 
一 种 自动 优化 措施 ， 它 会 存储 耗 时 的 函数 调用 结果 ， 避 免 重 新 计算 。 第 7 章 将 会 介绍 这 个 
函数 ， 还 将 讨论 装饰 器 ， 以 及 旨 在 用 作 装 饰 器 的 其 他 高 阶 函 数 : singledispatch 和 


wraps. 





511 本 章 小 结 


本 章 的 目标 是 探讨 Python 函数 的 一 等 本 性 。 这 意味 着 ， 我 们 可 以 把 函数 赋值 给 变量 、 传 
给 其 他 函数 、 存 储 在 数据 结构 中 ， 以 及 访问 函数 的 属性 ， 供 框架 和 一 些 工 具 使 用 。 高 阶 函 
数 是 函数 式 编程 的 重要 组 成 部 分 ， 即 使 现在 不 像 以 前 那样 经 常 使 用 map、filter 和 
reduce 函数 了 ， 但 是 还 有 列表 推导 《以 及 类 似 的 结构 ， 如 生成 器 表达 式 ) 以 及 

sum, all 和 any 等 内 置 的 归 约 函数 。Python 中 常用 的 高 阶 函 数 有 内 置 函 数 


sorted, min, max 和 functools. partial. 


Python 有 7 种 可 调用 对 象 ， 从 lambda 表达 式 创 建 的 简单 函数 到 实现 call _ 方法 的 类 
实例 。 这 些 可 调用 对 象 都 能 通过 内 置 的 callable() 函数 检测 。 每 一 种 可 调用 对 象 都 支持 
a nein 包括 仅 限 关键 数 和 注解 一 一 二 者 都 是 Python3 5| 
入 的 新 特性 。 


Python 函数 及 其 注解 有 丰富 的 属性 ， 在 inspect 模块 的 帮助 下 ， 可 以 读 取 它们 。 例 
如 ， eae bind 方法 使 用 灵活 的 规则 把 实 参 绑 定 到 形 参 上 ， 这 与 Python 使 用 的 规 
则 一 样 。 


最 后 ， 本 章 介 绍 了 operator 模块 中 的 一 些 函 数 ， 以 及 functools.partial 函数 ， 有 了 
这 些 函 数 ， 函数 式 编程 就 不 太 需要 功 人 LARK Lambda 表达 式 了 。 




















































































































5.12 ”延伸 阅读 


接 下 来 的 两 章 继续 探讨 使 用 函数 对 象 编程 。 第 6 章 说 明 一 等 函数 如 何 简化 某 些 经 典 的 面向 
对 象 设 计 模式 第 7 音 说 明 本 数 装饰 器 (一 种 特别 的 高 阶 函 数 和 六 持 装饰 基 的 闭 包 机 
Io 


«Python Cookbook (2 3 i) 中 文 版 》 (David Beazley 和 Brian K. Jones 34) 的 第 7 章 是 
对 本 章 和 第 7 章 很 好 的 补充 ， 那 一 章 基 本 上 使 用 不 同 的 方式 探讨 了 相同 的 概念 。 


Python 语言 参考 手册 中 的 “3.2. The standard type hierarchy” "i 
(https://docs.python.org/3/reference/datamodel.html#the-standard-type-hierarchy) 对 7 种 可 调 
用 类 型 和 其 他 所 有 内 置 类 型 做 了 介绍 。 


本 章 讨 论 的 Python 3 专 有 特性 有 各 自 的 PEP:“PEP 3102—Keyword-Only 
Arguments” Chttps://www.python.org/dev/peps/pep-3102/) 和 “PEP 3107—Function 
Annotations” Chttps://www.python.org/dev/peps/pep-3107/) o 


若 想 进一步 了 解 目 前 对 注解 的 使 用 ，Stack Overflow 网 站 中 有 两 个 问答 值得 一 读 : 一 个 
是 “What are good uses for Python3's‘ Function 

Annotations’” Chttp://stackoverflow.com/questions/3038033/what-are-good-uses-for-python3s- 
function-annotations) , Raymond Hettinger 给 出 了 务实 的 回答 和 深入 的 见解 ， 另 一 个 

是 “What good are Python function 

annotations?” Chttp://stackoverflow.com/questions/ 137847 13/what-good-are-python-function- 
annotations) ， 某 个 回答 中 大 量 引用 了 Guido van Rossum 的 观点 。 



































如 果 你 想 使 用 inspect IR, “PEP 362—Function Signature 
Object”(https://www.python.org/dev/peps/pep-0362/) 值得 一 读 ， 可 以 帮助 了 解 实 现 细节 。 


A. M. Kuchling 的 文章 “Python Functional Programming 
HOWTO” Chttp://docs.python.org/3/howto/functional.html) 对 Python 函数 式 编程 做 了 很 好 的 
介绍 。 不 过 ， 那 篇 文章 的 重点 是 使 用 友 代 器 和 生成 器 ， 这 是 第 14 章 的 话题 。 


fn.py Chttps://github.com/kachayev/fn.py) 是 为 Python 2 和 了 Python 3 提供 函数 式 编程 支持 的 
包 。 据 作者 Alexey Kachayev 介绍 ，fn.py 提供 了 Python 所 缺少 的 函数 式 特性 ”。 这 个 包 
提供 的 @recur.tco 装饰 器 为 Python 中 的 无 限 递归 实现 了 尾 调用 优化 。 此 外 ，fn.py 还 
提供 了 很 多 其 他 函数 、 数 据 结构 和 诀 穹 。 


Stack Overflow 网 站 中 的 问题 “Python: Why is functools.partial 

necessary?” Chttp://stackoverflow.com/questions/3252228/python-why-is-functools-partial- 
necessary) 有 个 详实 《而 有 趣 ) 的 回答 ， 答 主 是 Alex Martelli， 他 是 经 典 的 《Python 技术 
手册 》 一 书 的 作者 。 


Jim Fulton 开发 的 Bobo 或 许 是 第 一 个 称 得 上 是 面向 对 象 的 Web 框架 。 如 果 你 对 这 个 框架 
感 兴趣 ， 想 进一步 学 习 它 最 近 的 重 写 版 本 ， 先 
从 “Introduction”(http://bobo.readthedocs.io/en/latest/) AF. Œ Joel Spolsky 的 博客 中 ， 




































































Phillip J. Eby 在 评论 中 提 到 了 Bobo 的 一 些 早期 历史 
Chttp://discuss.fogcreek.com7joelonsoftware/default.asp?cmd=show &ixPost=94006) 。 


杂谈 
关于 Bobo 


我 的 Python 编程 生涯 从 Bobo 开始 。1998 年 ， 我 在 自己 的 第 一 个 Python Web 项 目 中 
使 用 了 Bobo。 当 时 我 在 寻找 编写 Web 应 用 的 面 癌 对 象 方式 ， 尝 试 过 一 些 Perl 和 Java 
框架 之 后 ， 我 发 现 了 Bobo。 


1997 年 ，Bobo 开创 了 对 象 发 布 概念 : 直接 把 URL 映射 到 对 象 层次 结构 上 ， 无 需 配 置 
路 由 。 看 到 这 种 做 法 的 精妙 之 处 后 ， 我 被 Bobo 吸引 住 了 。Bobo 还 能 通过 分 析 处 理 
请 求 的 方法 或 函数 的 签名 来 自动 处 理 HTTP 查询 。 


Bobo 由 Jim Fulton 创建 ， 他 被 人 称 为 “Zope #2” (The Zope Pope) ， 因 为 他 在 Zope 
框架 的 开发 中 的 起 到 领衔 作用 。Zope 是 Plone CMS、SchoolTool、ERP5 和 其 他 大 型 

Python 项 目的 基础 。Jim 还 是 ZODB (Zope Object Database) 的 创建 者 ， 这 是 一 个 事 

务 型 对 象 数 据 库 ， 提 供 了 ACID 〈“atomicity consistency, isolation, and durability”, JZ 

子 性 、 一 致 性 、 隔 离 性 和 耐久 性 ) ， 它 的 设计 目的 是 简化 Python 的 使 用 。 


后 来 ， 为 了 支持 WSGI 和 现代 的 Python 版 本 (包括 Python3) ，Jim 从 头 重 写 了 
Bobo。 写 作 本 书 时 ，Bobo 使 用 six 库 做 函数 内 省 ， 这 是 为 了 兼容 Python 2 和 Python 
3， 因 为 这 两 个 版 本 在 函数 对 象 和 相关 的 API 上 做 了 修改 。 


Python 是 函数 式 语言 吗 


2000 年 左右 ， 我 在 美国 做 培训 ，Guido van Rossum 到 访 了 教室 (他 不 是 讲师 ) 。 在 课 
后 的 问答 环节 ， 有 人 问 他 Python 的 哪些 特性 是 从 其 他 语言 借鉴 而 来 的 。 他 答 
道 : “Python 中 一 切 好 的 特性 都 是 从 其 他 语言 中 借鉴 来 的 。” 


布朗 大 学 的 计算 机 科学 教授 Shriram Krishnamurthi 在 其 论文 “Teaching Programming 
Languages in a Post-Linnaean 

Age” (http://cs.brown.edu/~sk/Publications/Papers/Published/sk-teach-pl-post-linnaean/ ) 
的 开头 这 样 写 道 : 


编程 语言 “范式 ”已 近 末 日 ， 它 们 是 旧时 代 的 遗留 物 ， 令 人 厌烦 。 既 然 现 代 语 言 的 
设计 者 对 范式 不 导 一 顾 ， 那 么 我 们 的 课程 为 什么 要 像 妈 隶 一 样 对 其 言 听 计 从 ? 
在 那 篇 论文 中 ， 下 面 这 一 段 点 名 提 到 了 Python: 


对 Python, Ruby 或 Perl 这 些 语言 还 要 了 解 什么 昵 ?它们 的 设计 者 没有 耐心 去 精 
上 实现 林 奈 层次 结构 ， 设 计 者 按照 自己 的 意愿 从 别处 借鉴 特性 ， 创 建 出 完全 无 视 
过 往 概念 的 大 杂烩 。 


Krishnamurthi 指出 ， 不 要 试图 把 语言 归 为 某 一 类 ; 相反， 把 它们 视 作 特性 的 聚合 更 有 
用 。 
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为 Python Heft — PRAT PS PRE AT. PEA E Guido 的 目的 。 他 
在 “Origins of Python's Functional Features” — X (http://python- 
history.blogspot.com/2009/04/origins-of-pythons-functional-features.html) 中 

ii, map, filter 和 reduce 的 最 初 目 的 是 为 Python 增加 lambda 表达 式 。 这 些 特 性 
都 由 Amrit Prem 贡献 ， 添 加 在 1994 年 发 布 的 Python 1.0 中 《参见 CPython 源码 中 的 
Misc/HISTORY X $F, https://hg.python.org/cpython/file/default/Misc/HISTORY ) 。 

















lambda, map. filter 和 reduce 首次 出 现在 Lisp 中 ， 这 是 最 早 的 一 门 函 数 式 语 
言 。 然 而 ，Lisp 没有 限制 在 lambda 表达 式 中 能 做 什么 ， 因 为 Lisp 中 的 一 切 都 是 表达 
式 。 Python 使 用 的 是 面向 语句 的 句法 ， 表 达 式 中 不 能 包含 语句 ， 而 很 多 语言 结构 都 
是 语句 ， 例 如 try/catch， 我 编写 lambda 表达 式 时 最 想念 这 个 语句 。Python 为 了 提 
高 句法 的 可 读 性 ， 必 须 付 出 这 样 的 代价 。6Lisp 有 很 多 优点 ， 可 读 性 一 定 不 是 其 中 之 





























讽刺 的 是 ， 从 另 一 门 函数 式 语言 《Haskell) 中 借用 列表 推导 之 后 ，Python 对 
map, filter, UR lambda 表达 式 的 需求 极 大 地 减少 了 。 


除了 匿名 函数 名 法 上 的 限制 之 外 ， 影 响 函 数 式 编程 惯用 法 在 Python 中 广泛 使 用 的 最 
大 障碍 是 缺少 尾 递 归 消 除 (tail-recursion elimination) ， 这 是 一 项 优化 措施 ， 在 函数 
J 定义 体 “ 末 尾 ” 递 归 调 用 ， 从 而 提高 计算 函数 的 内 存 使 用 效率 。Guido 在 另 一 篇 博客 
文章 (“Tail Recursion Elimination”, http://neopythonic.blogspot.com/2009/04/tail- 
recursion-elimination.html) 中 解释 了 为 什么 这 种 优化 措施 不 适合 Python。 这 篇 文章 详 
细 讨 论 了 技术 论证 ， 不 过 前 三 个 也 是 最 重要 的 原因 与 易 用 性 有 关 。 了 Python 作为 一 门 易 
于 使 用 、 学 习 和 教授 的 语言 并 非 偶 然 ， 有 Guido 在 为 我 们 把 关 。 


综 上 ， 从 设计 上 看 ， 不 管 函 数 式 语言 的 定义 如 何 ，Python 都 不 是 一 门 函数 式 语言 。 
Python 只 是 从 函数 式 语言 中 借鉴 了 一 些 好 的 想法 。 


匿名 函数 的 问题 


除了 Python 独 有 的 句法 上 的 局 限 ， 在 任何 一 门 语言 中 ， 匿 名 函数 都 有 一 个 严重 的 缺 
点 : 没有 名 称 。 


我 是 半 开 玩笑 的 。 函 数 有 名 称 ， 栈 跟踪 更 易于 阅读 。 匿 名 函数 是 一 种 便利 的 简洁 方 
式 ， 人 们 乐于 使 用 它们 ， 但 是 有 时 会 筷 乎 所 以 ， 尤 其 是 在 鼓励 深层 散 套 匿名 函数 的 语 
言 和 环境 中 ， 如 JavaScript 和 Nodejs。 匿 名 函数 谍 套 的 层级 太 深 ， 不 利于 调试 和 处 
理 错误 。Python 中 的 异步 编程 结构 更 好 ， 或 许 就 是 因为 lambda 表达 式 有 局 限 。 我 保 
证 ， 后 面 会 进一步 讨论 异步 编程 ， 但 是 必须 等 到 第 18 章 。 顺 便 说 一 下 ，promise 对 
A. SAW Cfuture) 和 deferred 对 象 是 现代 异步 API 中 使 用 的 概念 。 把 它们 与 协 程 结 
合 起 来 ， 能 避免 掉 入 “回调 地 狱 ”。18.5 节 会 说 明 如 何不 用 回调 来 做 异步 编程 。 

















































































































此外， 还 有 一 个 问题 : 把 代码 粘贴 到 Web 论坛 时 ， 缩 进 会 丢失 。 当 然 ， 这 是 题 外 话 。 





第 6 章 使 用 一 等 函数 实现 设计 侦 式 


符合 模式 并 不 表示 做 得 对 。! 





Ralph Johnson 
经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 之 一 














1 出 自 2014 年 11 月 
| Design Patterns” . 
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5 H Ralph Johnson 在 圣保罗 大 学 IME/CCSL 所 做 的 演讲 ，“Root Cause Analysis of Some Faults in 

















虽然 设计 模式 与 语言 无 关 ， 但 这 并 不 意味 着 每 一 个 模式 都 能 在 每 一 门 语言 中 使 用 。1996 
Œ, Peter Norvig 在 题 为 “Design Patterns in Dynamic Languages” (http://norvig.com/design- 
patterns/) 的 演讲 中 指出 ，Gamma 等 人 合 著 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 
一 书 中 有 23 个 模式 ， 其 中 有 16 eo SAUL ST, RAT” AILE 9 张 约 灯 
F) 。 他 讨论 的 是 Lisp 和 Dylan， 不 过 很 多 相关 的 动态 特性 在 Python 中 也 能 找到 。 


《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 的 作者 在 引言 中 承认 ， 所 用 的 语言 决定 了 哪些 
模式 可 用 : 


程序 设计 语言 的 选择 非常 重要 ， 它 将 影响 人 们 理解 问题 的 出 发 点 。 我 们 的 设计 模式 采 
用 了 Smalltalk 和 C++ 层 的 语言 特性 ， 这 个 选择 实际 上 决定 了 哪些 机 制 可 以 方便 地 实 
现 ， 而 哪些 则 不 能 。 若 我 们 采用 过 程式 语言 ， 可 能 就 要 包括 诸如 “集成 ”封装 ”和 “多 
态 ” 的 设计 模式 。 相 应 地 ， 一 些 特殊 的 面向 对 象 语 言 可 以 直接 支持 我 们 的 茶 些 模式 ， 
例如 CLOS 支持 多 方法 概念 ，j 这 就 减少 了 访问 者 模式 的 必要 性 
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具体 而 言 ，Norvig 建议 在 有 一 等 浮 数 的 语言 中 重新 审视 “策略 “命令 “模板 方法 "和 “访问 
者 模式。 通常， 我 们 可 以 把 这 些 模式 中 涉及 的 茶 些 类 的 实例 痊 换 成 简单 的 函数 ， 从 而 减 
ae 本 章 将 使 用 函数 对 象 重 构 “策略 ”模式 ， 还 将 讨论 一 种 更 简单 的 方式 ， 用 于 简 


化 “命令 ”模式 。 





6.1 案例 分 析 : 重 构 “ 策 略 ”模式 

如 果 合 理 利用 作为 一 等 对 象 的 函数 ， 某 些 设计 模式 可 以 简化 , “策略 ”模式 就 是 其 中 一 个 很 
好 的 例子 。 本 节 接 下 来 的 内 容 中 将 说 明 “ 策 略 ” 模 式 ， 并 使 用 《设计 模式 : 可 复 用 面向 对 象 
软件 的 基础 》 一 书 中 所 述 的 “经 典 ” 结 构 实现 它 。 如 果 你 熟悉 这 个 经 典 模 式 ， 可 以 跳 到 
6.1.2 节 ， 了 解 如 何 使 用 函数 重 构 代 码 来 有 效 减 少 代 码 行 数 。 


6.1.1 经 典 的 “策略 ”模式 
6-1 中 的 UML 类 图 指出 了 “策略 ”模式 对 类 的 编排 。 
























| Promotion | 
ee 
discount | 
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FidelityPromo 
aa, 


LargeOrderPromo 


BulkiltemPromo 


具体 策略 


图 6-1: 使 用 “策略 ”设计 模式 处 理 订单 折扣 的 UML 类 图 
《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 是 这 样 概 述 “ 策 略 ” 模 式 的 : 


定义 一 系列 算法 ， 把 它们 一 一 封装 起 来 ， 并 且 使 它们 可 以 相互 替换 。 本 模式 使 得 算法 
可 以 独立 于 使 用 它 的 客户 而 变化 。 


和 
Ho 


假如 一 个 网 店 制 定 了 下 述 折扣 规则 。 




















e A 1000 或 以 上 积分 的 顾客 ， 每 个 订单 享 5% 折扣 。 
。 同一 订单 中 ， 单 个 商品 的 数量 达到 20 个 或 以 上 ， 享 10% 折扣 。 
。 订 单 中 的 不 同 商品 达到 10 个 或 以 上 ， 享 7% 折扣 。 
简单 起 见 ， 我 们 假定 一 个 订单 一 次 只 能 享用 一 个 折扣 。 
“策略 ”模式 的 UML 类 图 见 图 6-1， 其 中 涉及 下 列 内 容 。 
EFX 


把 一 些 计算 委托 给 实现 不 同 算法 的 可 互 换 组 件 ， 它 提供 服务 。 在 这 个 电 商 示例 中 ， 上 
下 文 是 Order， 它 会 根据 不 同 的 算法 计算 促销 折扣 。 






























































PR ee 在 这 个 示例 中 ， 名 为 Promotion 的 抽象 类 扮演 这 
| Eto 


有 具体 策略 


“策略 ”的 具体 子 类 。fidelityPromo、BulkPromo 和 LargeOrderPromo 是 这 里 实现 
的 三 个 具体 策略 。 


示例 6-1 实现 了 图 6-1 中 的 方案 。 按 照 《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 
说 明 ， 具 体 策略 由 上 下 文 类 的 客户 选择 。 在 这 个 示例 中 ， A CAD, RA OE 
方式 选择 一 种 促销 折扣 策略 ， 然 后 把 它 传 给 Order 构造 方法 。 有 具体 怎么 选择 策略 ， 不 在 
这 个 模式 的 职责 范围 内 。 


示例 6-1 KM Order X, SCHAMA TTI 






































from abc import ABC, abstractmethod 
from collections import namedtuple 


Customer = namedtuple('Customer', ‘name fidelity’ ) 


class LineItem: 
def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 
def total(self): 
return self.price * self.quantity 


class Order: # EFX 


def _ init__(self, customer, cart, promotion=None): 





self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '_ total'): 
self.__ total = sum(item.total() for item in self.cart) 
return self. total 


def due(self): 
if self.promotion is None: 
discount = @ 
else: 
discount = self.promotion.discount(self) 
return self.total() - discount 


def _ repr__ (self): 
fmt = '<Order total: {:.2f} due: {:.2F}>' 
return fmt.format(self.total(), self.due()) 


class Promotion(ABC) : # 策略 : 抽象 基 类 
@abstractmethod 


def discount(self, order): 
""" 返 回 折 扣 金 额 〈 正 值 ) """ 



































class FidelityPromo(Promotion): # 第 一 个 具体 策 


”"" 为 积分 为 1898 或 以 上 的 顾客 提供 5% 折 扣 """ 

















def discount(self, order): 
return order.total() * .65 if order.customer.fidelity >= 1000 else 6 

















class BulkItemPromo(Promotion): # 第 二 个 具体 策 


""" 单 个 商品 为 26 个 或 以 上 时 提供 16% 折 扣 """ 


























def discount(self, order): 
discount = @ 
for item in order.cart: 
if item.quantity >= 20: 
discount += item.total() * .1 
return discount 








A 


class LargeOrderPromo(Promotion): # 第 三 个 He 


""" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 



































def discount(self, order): 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return @ 








注意 ， 在 示例 6-1 中 ， 我 把 Promotion 定义 为 抽象 基 类 (Abstract Base Class, ABC) , 
这 么 做 是 为 了 使 用 @abstractmethod 装饰 器 ， 从 而 明确 表明 所 用 的 模式 。 














AI 在 Python 3.4 中 ， 声 明 抽 象 基 类 最 简单 的 方式 是 子 类 化 abc.ABC。 我 在 示例 6- 
1 中 就 是 这 么 做 的 。 从 Python 3.0 到 Python 3.3， 必 须 在 class 语句 中 使 用 
metaclass= 关键 字 ( 例 如 ，class Promotion(metaclass=ABCMeta):)。 


示例 6-2 是 一 些 doctest， 在 某 个 实现 了 上 述 规则 的 模块 中 演示 和 验证 相关 操作 。 
示例 6-2 使 用 不 同 促销 折扣 的 Order 类 示例 














>>> joe = Customer('John Doe', 0) @ 
>>> ann = Customer('Ann Smith', 1100) 
>>> cart = [LineItem('banana', 4, .5), @ 
LineItem('apple', 10, 1.5), 
s LineItem('watermellon', 5, 5.0)] 
>>> Order(joe, cart, FidelityPromo()) © 
<Order total: 42.00 due: 42.00> 
>>> Order(ann, cart, FidelityPromo()) @ 
<Order total: 42.00 due: 39.96> 
>>> banana_cart = [LineItem('banana', 30, .5), O 
LineItem('apple', 10, 1.5)] 
>>> > Order(joe, banana_cart, BulkItemPromo()) © 
<Order total: 30.00 due: 28.56> 
>>> long_order = [LineItem(str(item_code), 1, 1.0) @ 
for item_code in range(10) ] 
>>> > order(joe, long_order, LargeOrderPromo()) © 
<Order total: 10.00 due: 9.3@> 
>>> Order(joe, cart, LargeOrderPromo()) 
<Order total: 42.00 due: 42.00> 





@ 两 个 顾客 : joe 的 积分 是 0，ann 的 积分 是 1100。 

O 有 三 个 商品 的 购物 车 。 

© fidelityPromo 没 给 joe 提供 折扣 。 

© ann 得 到 了 5% 折扣 ， 因 为 她 的 积分 超过 1000。 

@ banana_cart 中 有 30 把 香花 和 10 个 苹果 。 

@ BulkItemPromo 为 joe 购买 的 香蕉 优惠 了 1.50 美元 。 

@ long_order 中 有 10 个 不 同 的 商品 ， 每 个 商品 的 价格 为 1.00 美元 。 
@ LargerorderPromo 为 joe 的 整个 订单 提供 了 7% 折扣。 


示例 6-1 完全 可 用 ， 但 是 利用 Python 中 作为 对 象 的 函数 ， 可 以 使 用 更 少 的 代码 实现 相同 的 
功能 。 详 情 参见 下 一 节 。 


6.1.2 ”使 用 函数 实现 “雪上 略 ” 模 式 
























































在 示例 6-1 中 ， 每 个 具体 策略 都 是 一 个 类 ， 而 且 都 只 定义 了 一 个 方法 ， 即 discount. HE 
外 ， 策 略 实例 没有 状态 (没有 实例 属性 ) 。 你 可 能 会 说 ， 它 们 看 起 来 像 是 普通 的 函数 一 
的 确 如 此 。 示 例 6-3 是 对 示例 6-1 的 重 构 ， 把 具体 策略 换 成 了 简单 的 函数 ， 而 且 去 掉 了 
Promo 抽象 类 。 


示例 6-3 Order 类 和 使 用 函数 实现 的 折扣 策略 



































from collections import namedtuple 


Customer = namedtuple('Customer', ‘name fidelity’ ) 


class LineItem: 


def _ init__(self, product, quantity, price): 
self.product = product 
self.quantity = quantity 
self.price = price 


def total(self): 
return self.price * self.quantity 


class Order: # EFX 


def _ init__(self, customer, cart, promotion=None): 
self.customer = customer 
self.cart = list(cart) 
self.promotion = promotion 


def total(self): 
if not hasattr(self, '_ total'): 
self.__ total = sum(item.total() for item in self.cart) 
return self. total 


def due(self): 
if self.promotion is None: 
discount = @ 
else: 
discount = self.promotion(self) @ 
return self.total() - discount 


def _ repr__ (self): 
fmt = '<Order total: {:.2f} due: {:.2F}>' 
return fmt.format(self.total(), self.due()) 


def fidelity_promo(order): © 
""" 为 积分 为 1688 或 以 上 的 顾客 提供 5% 折 扣 """ 
return order.total() * .65 if order.customer.fidelity >= 1666 else 6 














def bulk_item_promo(order): 
en ANT in 20 RD Ede esr so" 
discount = @ 
for item in order.cart: 




















if item.quantity >= 20: 
discount += item.total() * .1 
return discount 


def large _order_promo(order): 
"" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return @ 























@ 计算 折扣 只 需 调 用 self. promotion() 函数 。 
四 没有 抽象 类 。 
全 各 个 策略 都 是 函数 。 


示例 6-3 中 的 代码 比 示例 6-1 少 12 行 。 不 仅 如 此 ， 新 的 Order 类 使 用 起 来 更 简单 ， 如 示 
例 6-4 中 的 doctest 所 示 。 


示例 6-4 使 用 函数 实现 的 促销 折扣 的 Order 类 示例 











>>> joe = Customer('John Doe', 0) @ 
>>> ann = Customer('Ann Smith', 1100) 
>>> cart = [LineItem('banana', 4, .5), 
LineItem('apple', 10, 1.5), 
A LineItem('watermellon', 5, 5.0)] 
>>> Order(joe, cart, fidelity promo) @ 
<Order total: 42.00 due: 42.00> 
>>> Order(ann, cart, fidelity_promo) 
<Order total: 42.00 due: 39.9@> 
>>> banana_cart = [LineItem('banana', 30, .5), 
LineItem('apple', 10, 1.5)] 
>>> > order(joe, banana_cart, bulk_item_promo) © 
<Order total: 30.00 due: 28.50> 
>>> long_order = [LineItem(str(item_code), 1, 1.0) 
for item_code in range(16)] 
>>> > Order(joe, long order, large_order_promo) 
<Order total: 10.00 due: 9.3@> 
>>> Order(joe, cart, large_order_promo) 
<Order total: 42.00 due: 42.00> 








O 与 示例 6-1 一 样 的 测试 固件 。 

四 为 了 把 折扣 策略 应 用 到 Order 实例 上 ， 只 需 把 促销 函数 作为 参数 传 入 。 

O 这 个 测试 和 下 一 个 测试 使 用 不 同 的 促销 函数 。 

注意 示例 6-4 中 的 标注 : 没 必 要 在 新 建 订单 时 实例 化 新 的 促销 对 象 ， 函 数 拿 来 即 用 。 
值得 注意 的 是 ，《 设 计 模 式 : 可 复 用 面 同 对 象 软件 的 基础 》 一 书 的 作者 指出 : “策略 对 象 


通常 是 很 好 的 享 元 Cflyweight) . ”3 那 本 书 的 为 一 部 分 对 “ 享 元 "下 了 定义 ， “ 享 元 是 可 共 
享 的 对 象 ， 可 以 同时 在 多 个 上 下 文中 使 用 。”” 共享 是 推荐 的 做 法 ， 这 样 不 必 在 每 个 新 的 















































上 下 文 (这 里 是 Order 实例 ) 中 使 用 相同 的 策略 时 不 断 新 建 具体 策略 对 象 ， 从 而 减少 消 
耗 。 因 此 ， 为 了 避免 “策略 ”模式 的 一 个 缺点 〈 运 行 时 消耗 ) ，《 设 计 模 式 : 可 复 用 面向 对 
a 的 作者 建议 再 使 用 另 一 个 模式 。 但 此 时 ， 代 码 行 数 和 维护 成 本 会 不 断 攀 














3《 设 计 模 式 ， WA 









































4 《设计 模式 ， WAT 
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对 象 软件 的 基础 








名 对象 软件 的 基 而 
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在 复杂 的 情况 下 ， 需 要 具体 策略 维护 内 部 状态 时 ， 可 能 需要 把 “策略 "和 “他 元 ”模式 结合 起 
来 。 但 是 ， 具 体 策略 一 般 没有 内 部 状态 ， 只 是 处 理 上 下 文中 的 数据 。 此 时 ， 一 定 要 使 用 普 
通 的 函数 ， 别 去 编写 只 有 一 个 方法 的 类 ， 再 去 实现 男 一 个 类 声明 的 单 函 数 接口 。 函 数 比 用 






























































定义 的 类 的 实例 轻 量 





st FA 





块 时 只 会 创建 
至 此 ， 我 们 使 用 函数 实现 了 “策略 ”模式 ， 由 此 也 出 现 了 其 他 可 能 性 。 假 设 我 们 想 创 建 一 


个 “元 策略 ”， 


6.1.3 ”选择 





次 。 


H IR 


T, 而 且 无 需 使 用 "部 元 "模式 因为 各 个 策略 函数 在 Python 编译 模 





通 的 函数 





也 是 “可 共享 的 对 象 ， 可 以 同时 在 多 个 上 下 文中 使 用 ”。 

















让 它 为 指定 的 订单 选择 最 佳 折 扣 。 接 下 来 的 几 节 会 接着 重 构 ， 利 用 函数 和 模 
块 是 对 象 ， 使 用 不 同 的 方式 实现 这 个 需求 。 











Be TE R HA : 


简单 的 方式 





我 们 继续 使 用 示例 6-4 中 的 顾客 和 购物 车 ， 在 此 基础 上 添加 3 个 测试 ， 如 示例 6-5 所 示 。 
示例 6-5 best_promo 函数 计算 所 有 折扣 ， 并 返回 额度 最 大 的 











>>> Order(joe, long order, best_promo) @ 
<Order total: 10.00 due: 9.36> 
>>> Order(joe, banana_cart, best_promo) @ 
<Order total: 30.00 due: 28.56> 

>>> Order(ann, cart, best_promo) © 

<Order total: 42.00 due: 39.96> 





@ best_promo 为 顾客 joe 选择 larger_order_promo. 
Oi WKEEEN, 





折扣 。 


best_promo 函数 的 实现 特别 简 


示例 6-6 best_promo 和 迭代 一 














joe 使 用 bulk_item_promo 提供 的 折扣 。 
全 在 一 个 简单 的 购物 车 中 ，best_promo 为 忠实 顾客 ann 提供 fidelity_promo 优惠 的 























单 ， 如 示例 6-6 所 示 。 


个 函数 列表 ， 并 找 出 折扣 额度 最 大 的 





promos = [fidelity promo, bulk_item_promo, large order promo] © 


def best _promo(order): 








"选择 可 




















@ 
j 的 最 佳 折扣 


return max(promo(order) for promo in promos) © 





| 
Q promos 列 出 以 函数 实现 的 各 个 策略 。 
四 与 其 他 几 个 *_promo 函数 一 样 ，best_promo 函数 的 参数 是 一 个 order 实例 。 


© E order 传 给 promos 列表 中 的 各 个 函数 ， 返 回 折 扣 额 度 最 大 的 那 
人 下 函数。 


示例 6-6 简单 明了 ，promos 是 函数 列表 。 习 惯 函 数 是 一 等 对 象 后 ， 自 然而 然 就 会 构建 那 
种 数据 结构 存储 函数 。 


虽然 示例 6-6 可 用 ， 而 且 易 于 阅读 ， 但 是 有 些 重复 可 能 会 导致 不 易 察觉 的 缺陷 : 若 想 添 加 
新 的 促销 策略 ， 要 定义 相应 的 函数 ， 还 要 记得 把 它 添加 到 promos 列表 中 ; 否则 ， 当 新 促 
销 函 数 显 式 地 作为 参数 传 给 0rder 时 ， 它 是 可 用 的 ， 但 是 best_promo 不 会 考虑 它 。 


继续 往 下 读 ， 了 解 这 个 问题 的 几 种 解决 方案 。 


6.1.4 ” 找 出 模块 中 的 全 部 策略 


在 Python 中 ， 模 块 也 是 一 等 对 象 ， 而 且 标准 库 提 供 了 几 个 处 理 模块 的 函数 。Python 文档 
是 这 样 说 明 内 置 函 数 globals 的 。 


globals() 


返回 一 个 字典 ， 表 示 当 前 的 全 局 符号 表 。 这 个 符号 表 始 终 针对 当前 模块 《对 函数 或 方 
法 来 说 ， 是 指定 义 它 们 的 模块 ， 而 不 是 调用 SATO 。 


有 globals 函数 帮助 best_promo 自动 找到 其 他 可 用 的 *_promo 函数 ， 过 程 


示例 6-7 内 省 模块 的 全 局 命名 空间 ， 构 建 promos 列表 














































































































promos = [globals()[name] for name in globals() © 
if name.endswith('_promo') @ 
and name != 'best_promo'] © 


def best _promo(order): 


"”" 选 择 可 用 的 最 佳 折扣 

















return max(promo(order) for promo in promos) @ 








@ iE globals() 返回 字典 中 的 各 个 name. 
O 只 选择 以 _promo 结尾 的 名 称 
© 过 滤 掉 best_promo 自身 ， 防 止 无 限 递归 。 








@ best_promo 内 部 的 代码 没有 变化 。 


收集 所 有 可 用 促销 的 另 一 种 方法 是 ， 在 一 个 单独 的 模块 中 保存 所 有 策略 函数 ， 把 
best_promo 排除 在 外 。 


在 示例 6-8 中 ， 最 大 的 变化 是 内 省 名 为 promotions 的 独立 模块 ， 构 建 策略 函数 列表 。 注 
意 ， 示 例 6-8 要 导入 promotions 模块 ， 以 及 提供 高 阶 内 省 函数 的 inspect 模块 〈 简 单 
起 见 ， 这 里 没有 给 出 导入 语句 ， 因 为 导入 语句 一 般 放 在 文件 顶部 ) 。 


示例 6-8 ”内 省 单独 的 promotions 模块 ， 构 建 promos 列表 















































promos = [func for name, func in 
inspect.getmembers(promotions, inspect.isfunction) ] 








def best_promo(order): 


选择 可 用 的 最 佳 折扣 














return max(promo(order) for promo in promos) 








inspect.getmembers 函数 用 于 获取 对 象 〈 这 里 是 promotions 模块 ) 的 属性 ， 第 二 个 
参数 是 可 选 的 判断 条 件 “〈 一 个 布尔 值 函 数 ) 。 我 们 使 用 的 是 inspect.isfunction， 只 
获取 模块 中 的 函数 。 

不 管 怎么 命名 策略 函数 ， 示 例 6-8 都 可 用 ;唯一 重要 的 是 ，promotions 模块 只 能 包含 计 
算 订 单 折扣 的 函数 。 当 然 ， 这 是 对 代码 的 隐 性 假设 。 如 果 有 人 在 promotions 模块 中 使 用 
不 同 的 签名 定义 函数 ， 那 么 best_promo 函数 尝试 将 其 应 用 到 订单 上 时 会 出 错 。 


我 们 可 以 添加 更 为 严格 的 测试 ， 审 查 传 给 实例 的 参数 ， 进 一 步 过 滤 函 数 。 示 例 6-8 的 目的 
不 是 提供 完善 的 方案 ， 而 是 强调 模块 内 省 的 一 种 用 途 。 


动态 收集 促销 折扣 函数 更 为 显 式 的 一 种 方案 是 使 用 简单 的 装饰 器 。 第 7 章 讨论 函数 装饰 器 
时 会 使 用 其 他 方式 实现 这 个 电 商 “策略 ”模式 示例 。 


下 一 节 讨论 “命令 ”模式 。 这 个 设计 模式 也 第 使 用 单方 法 类 实现 ， 同 样 也 可 以 换 成 普通 的 函 


















































6.2 “命令 ”模式 


“命令 ”设计 模式 也 可 以 通过 把 函数 作为 参数 传递 而 简化 。 这 一 模式 对 类 的 编排 如 图 6-2 所 
示 。 






客户 端 调用 者 命令 
~~ Z 


execute 











PasteCommand 


[ES 


MacroCommand 
eee es 








execute execute 


具体 命令 


| 


图 6-2: 菜单 驱动 的 文本 编辑 器 的 UML 类 图 ， 使 用 “命令 ”设计 模式 实现 。 各 个 命令 可 
以 有 不 同 的 接收 者 〈 实 现 操作 的 对 象 ) 。 对 PasteCommand 来 说 ， 接 收 者 是 
Document. Xf OpenCommand 来 说 ， 接 收 者 是 应 用 程序 


“命令 "模式 的 目的 是 解 耦 调用 操作 的 对 象 〈 调 用 者 ) 和 提供 实现 的 对 象 〈 接 收 者 ) 。 在 
《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 所 举 的 示例 中 ， 调 用 者 是 图 形 应 用 程序 中 的 沫 
单项 ， 而 接收 者 是 被 编辑 的 文档 或 应 用 程序 自身 。 


这 个 模式 的 做 法 是 ， 在 二 者 之 间 放 一 个 Command 对 象 ， 让 它 实现 只 有 一 个 方法 

(execute) 的 接口 ， 调 用 接收 者 中 的 方法 执行 所 需 的 操作 。 这 样 ， 调 用 者 无 需 了 解 接收 
者 的 接口 ， 而 且 不 同 的 接收 者 可 以 适应 不 同 的 Command 子 类 。 调 用 者 有 一 个 具体 的 命 
令 ， 通 过 调用 execute 方法 执行 。 注 意 ， 图 6-2 中 的 MacroCommand 可 能 保存 一 系列 命 
令 ， 它 的 execute() 方法 会 在 各 个 命令 上 调用 相同 的 方法 。 


Gamma 等 人 说 过 : “命令 模式 是 回调 机 制 的 面向 对 象 蔡 代 品 。” 问 题 是 ， 我 们 需要 回调 机 
制 的 面向 对 象 荐 代 品 吗 ? 有 时 确实 需要 ， 但 并 非 始 终 需 要 。 


我 们 可 以 不 为 调用 者 提供 一 个 Command 实例 ， 而 是 给 它 一 个 函数 。 此 时 ， 调 用 者 不 用 调 
































用 command .execute()， 直 接 调用 command() ENF]. MacroCommand 可 以 实现 成 定义 了 
_ call _ 方法 的 类 。 这 样 ，MacroCommand 的 实例 就 是 可 调用 对 象 ， 各 自 维护 着 一 个 函 
数列 表 ， 供 以 后 调用 ， 如 示例 6-9 所 示 。 


示例 6-9 MacroCommand 的 各 个 实例 都 在 内 部 存储 着 命令 列表 


























class MacroCommand: 
nu "一 个 执行 一 组 命令 的 命令 " nu 


def _ init__(self, commands): 
self.commands = list(commands) # @ 


def _ call_ (self): 
for command in self.commands: # @ 
command() 














Q 使 用 commands 参数 构建 一 个 列表 ， 这 样 能 确保 参数 是 可 迭代 对 象 ， 还 能 在 各 个 
MacroCommand 实例 中 保存 各 个 命令 引用 的 副本 。 


@ 调用 MacroCommand 实例 时 ，self.commands 中 的 各 个 命令 依 序 执行 。 


复杂 的 “命令 "模式 〈 如 支持 撤销 操作 ) 可 能 需要 更 多 ， 而 不 仅 是 简单 的 回调 函数 。 即 便 如 
此 ， 也 可 以 考虑 使 用 Python 提供 的 几 个 替代 品 。 


。 像 示例 6-9 中 MacroCommand 那样 的 可 调用 实例 ， 可 以 保存 任何 所 需 的 状态 ， 而 且 除 
J _ call 之 外 还 可 以 提供 其 他 方法 。 


。 可 以 使 用 闭 包 在 调用 之 间 保 存 函 数 的 内 部 状态 。 
使 用 一 等 函数 对 “命令 ”模式 的 重新 审视 到 此 结束 。 站 在 一 定 高 度 上 看 ， 这 里 采用 的 方式 


与 “策略 ”模式 所 用 的 类 似 : 把 实现 单方 法 接口 的 类 的 实例 替换 成 可 调用 对 象 。 毕 竟 ， 每 个 
Python 可 调用 对 象 都 实现 了 单方 法 接口 ， 这 个 方法 就 是 _ call 。 





































































































63 本章 小 结 


经 典 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 出 版 几 年 后 ，Peter Norvig 指 

ii, “在 Lisp 或 Dylan 中 ，23 个 设计 模式 中 有 16 个 的 实现 方式 比 C++ 中 更 简单 ， 而 且 能 
果 持 同等 质量 ， 人 至 少 各 个 模式 的 某 些 用 途 如 此 ”(Norvig 的 “Design Patterns in Dynamic 
Languages” 演 讲 ， 第 9 SKAIKT Hr, http://www.norvig.com/design-patterns/index.htm) 。Python 
有 些 动态 特性 与 Lisp 和 Dylan 一 样 ， 尤 其 是 本 书 这 一 部 分 着 重 讨论 的 一 等 函数 。 


本 章 开 头 引 用 的 那 句 话 是 Ralph Johnson 在 纪念 《设计 模式 : 可 复 用 面向 对 象 软件 的 基 
础 》 原 书 出 版 20 周年 的 活动 上 所 说 的 ， 他 指出 这 本 书 的 缺点 之 一 是 :“ 过 多 强调 设计 模式 
的 结果 ， 而 没有 细 说 过 程 。” 本 章 从 “策略 ”模式 开始 ， 使 用 一 等 函数 简化 了 实现 方式 。 









































5 与 本 章 开 头 引 用 的 那 句 话 同 出 一 处 : 2014 年 11 月 15 H Johnson 在 IME-USP 所 做 的 演讲 ，“Root Cause Analysis of 


Some Faults in Design Patterns”。 




















很 多 情况 下 ， 在 Python 中 使 用 函数 或 可 调用 对 象 实现 回调 更 自然 ， 这 比 模仿 Gamma, 
Helm, Johnson 和 Vlissides 在 书 中 所 述 的 “策略 ”或 “命令 ”模式 要 好 。 本 章 对 “策略 ”模式 的 
重 构 和 对 “命令 ”模式 的 讨论 是 为 了 通过 示例 说 明 一 个 更 为 常见 的 做 法 : 有 时 ， 设 计 模 式 或 
API 要 求 组 件 实 现 单 方法 接口 ， ee i 很 宽泛 ， 例 如 “execute”run” 或 “dolIt”。 
oe 这 些 模式 或 API 通常 可 以 使 用 一 等 函数 或 其 他 可 调用 的 对 象 实 现 ， 从 而 减 


Peter Norvig 那 次 设计 模式 演讲 想 表 达 的 观点 是 , “命令 ?和 “策略 ”模式 〈 以 及 “模板 方 
法 ”和 “访问 者 ”模式 ) 可 以 使 用 一 等 函数 实现 ， 这 样 更 简单 ， 甚 至 “不 见 了 ”， 至 少 对 这 些 
模式 的 某 些 用 途 来 说 是 如 此 。 



































6.4 延伸 阅读 


结束 对 “策略 ”模式 的 讨论 时 ， 我 建议 使 用 函数 装饰 器 改进 示例 6-8。 本 章 还 多 次 提 到 了 闭 
人 章 的 话题 。 那 一 章 首 先 重 构 本 章 的 电 商 示 例 ， 使 用 装饰 器 注册 可 
用 的 促销 方式 。 


《Python Cookbook ( 3 版 ) 中 文 版 》 (David Beazley 和 Brian K. Jones 3%) 的 “8.21 实现 
访问 者 模式 ”使 用 优雅 的 方式 实现 了 “访问 者 ”模式 ， 其 中 的 NodeVisitor 类 把 方法 当 作 一 
等 对 象 处 理 。 


在 设计 模式 方面 ，Python 程序 员 的 阅读 选择 没有 其 他 语言 多 。 


据 我 所 知 ， 和 截至 2014 年 6 A, Learning Python Design Patterns (Gennadiy Zlobin 著 ， 
Packt 出 版 社 ) 是 唯一 一 本 专门 针对 Python 设计 模式 的 书 。 不 过 Zlobin 这 本 书 特别 薄 
(100 页) ， 只 涵盖 了 23 种 设计 模式 中 的 8 种 。 


《Python 高 级 编程 》 (Tarek Ziadé 著 ) 是 市 面 上 最 好 的 Python 中 级 书 ， 第 14 章 “ 有 用 的 设 
计 模 式 ” 从 Python 程序 员 的 视角 介绍 了 7 种 经 典 模式 。 


Alex Martelli 做 过 几 次 关于 Python 设计 模式 的 演讲 。 他 在 EuroPython 2011 上 的 演讲 有 视 
频 (http://pyvideo.org/europython-2011/python-design-patterns.html〉， 他 的 个 人 网 站 中 有 一 
些 幻 灯 片 (http://www.aleax.it/gdd pydp.pdf) 。 这 些 年 ， 我 找到 了 不 同 的 幻灯 片 和 视频 ， 
长 短 不 一 ， 因 此 要 和 仔细 搜索 他 的 名 字 和 “Python Design Patterns” 这 些 词 。 


2008 年 左右 ，《Java 编程 思想 》 的 作者 Bruce Eckel 开始 写 一 本 题 为 Python 3 Patterns, 
Recipes and Idioms 的 书 Chttp://www.mindviewinc.con/Books/Python3Patterns/Index.php) 。 
这 本 书 有 很 多 贡献 者 ， 领 头 人 是 Eckel， 但 是 六 年 过 去 了 ， 依 然 没 有 写 完 ， 看 样子 是 流产 
了 “写作 本 书 时 ， 仓 库 的 最 后 一 次 改动 是 在 两 年 前 6) 。 


6 至 本 书 中 文 版 出 版 时 ， 仓 库 的 最 后 一 次 改动 是 在 2015 年 8 月 4 日 。 一 一 编者 注 

































































用 Java 写 的 设计 模式 书 很 多 ， 其 中 我 最 喜欢 的 一 本 是 《Head First 设计 模式 》 (Eric 
Freeman, Bert Bates. Kathy Sierra 和 Elisabeth Robson 3) 。 这 本 书 讲解 了 23 个 经 典 模式 
中 的 16 个 。 如 果 你 喜欢 Head First 系列 丛书 的 古怪 风格 ， 而 且 想 了 解 这 个 主题 ， 你 会 喜 
欢 这 本 书 的 。 不 过 ， 它 是 围绕 Java 讲解 的 。 


如 果 想 换个 新 鲜 的 角度 ， 从 支持 鸭子 类 型 和 一 等 函数 的 动态 语言 入 手 ，《Ruby 设计 模 
式 》 (Russ Olsen 著 ) 一 书 有 很 多 见解 也 适用 于 Python。 虽 然 Python 和 Ruby 在 句法 上 有 
很 多 区 别 ， 但 是 二 者 在 语义 方面 很 接近 ， 比 Java 或 C++ 接近 。 

















在 “Design Patterns in Dynamic Languages” (http://norvig.com/design-patterns/) 这 一 演讲 中 ， 
Peter Norvig 展示 了 如 何 使 用 一 等 函数 (和 其 他 动态 特性 〉 简化 几 个 经 典 的 设计 模式 ， 或 
者 根本 不 需要 使 用 设计 模式 。 


当然 ， 如 果 你 想 认真 研究 这 个 话题 ，Gamma 等 人 写 的 《设计 模式 : 可 复 用 面向 对 象 软件 
的 基础 》 一 书 是 必 读 的 。 光 是 “引言 就 值 回 书 钱 了 。 人 们 经 常 引用 这 本 书 中 的 两 个 设计 原 














则 :“ 对 接口 编程 ， 而 不 是 对 实现 编程 "和 “优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ”。 
杂谈 


Python 拥有 一 等 函数 和 一 等 类 型 ，Norvig 声称 ， 这 些 特性 对 23 个 模式 中 的 16 个 有 影 
i] (Design Patterns in Dynamic Languages”, 3 10 张 幻 灯 片 ，http://norvig.com/design- 
patterns/) 。 读 到 下 一 章 你 会 发 现 ，Python 还 有 泛 函 数 (7.8.2 7) 。 泛 函数 与 CLOS 
中 的 多 方法 (multimethod〉 类 似 ，Gamma 等 人 建议 使 用 多 方法 以 一 种 简单 的 方式 实 
现 经 典 的 “访问 者 ”模式 。Norvig 却说 ， 多 方法 能 简化 “生成 器 ”(Builder) 模式 (第 
10 张 约 灯 片 ) 。 可 见 ， 设 计 模 式 与 语言 特性 无 法 精确 对 应 。 


世界 各 地 的 课堂 经 常 使 用 Java 示例 讲解 设计 模式 。 我 不 止 一 次 听 学 生 说 过 ， 他 们 以 
为 设计 模式 在 任何 语言 中 都 有 用 。 事 实证 明 ， 在 Gamma 等 人 合 著 的 那 本 书 中 ， 尽 管 
大 部 分 使 用 C++ 代码 说 明 (少数 使 用 Smalltalk) ， 但 是 23 个 “经 典 的 ”设计 模式 都 能 
很 好 地 在 “经 典 的 ”Java 中 运用 。 然 而 ， 这 并 不 意味 着 所 有 模式 都 能 一 成 不 变 地 在 任何 
语言 中 运用 。 那 本 书 的 作者 在 开头 就 明确 表明 了 ,“ 一 些 特殊 的 面向 对 象 语 言 可 以 直 
接 支持 我 们 的 某 些 模式 ”完整 的 引用 见 本 章 开 头 ) 。 


与 Java, C+ 或 Ruby 相 比 ，Python 设计 模式 方面 的 书籍 都 很 薄 。 延 伸 阅 读 中 提 到 的 
Learning Python Design Patterns (Gennadiy Zlobin 著 ) Œ 2013 F 11 月 才 出 版 。 而 

(Ruby 设计 模式 》 (Russ Olsen 著 ) 在 2007 年 就 出 版 了 ， 而 且 有 384 页 ， 比 Zlobin 
的 那 本 书 多 出 284 页 。 


如 今 ，Python 在 学 术 界 越 来 越 流行 ， 和 希望 以 后 会 有 更 多 以 这 门 语言 讲解 设计 模式 的 书 
籍 。 此 外 ，Java 8 引入 了 方法 引用 和 匿名 函数 ， 这 些 广 受 期 盼 的 特性 有 可 能 为 Java 
ee ic 语言 会 进化 ， 因 此 运用 经 典 设计 模式 的 方式 必定 
要 随 之 进化 。 


































































































第 7 章 PRB ili ae A A 


有 很 多 人 抱怨 ， 把 这 个 特性 命名 为 “装饰 器 "不 好 。 主 要 原因 是 ， 这 个 名 称 与 GoF 书 1 
A ee 
解 句 法 树 。 














— ‘PEP 318 — Decorators for Functions and Methods” 























1 指 1995 年 出 版 的 英文 原版 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》， 作 者 是 四 个 人 ， 人 们 称 之 为 “四 人 组 ”(Gang 


of Four) 。 


















































函数 装饰 器 用 于 在 源码 中 “标记 ”函数 ， 以 某 种 方式 增强 函数 的 行为 。 这 是 一 项 强大 的 功 
nonlocal 是 新 近 出 现 的 保留 关键 字 ， 在 Python 3.0 中 引入 。 作 为 Python 程序 员 ， 如 果 严 
格 遵守 基于 类 的 面向 对 象 编程 方式 ， 即 便 不 知道 这 个 关键 字 也 不 会 受到 影响 。 然 而 ， 如 果 
你 想 自 己 实 现 函 数 装 饰 器 ， 那 就 必须 了 解 闭 包 的 方方面面 ， 因 此 也 就 需要 知道 
nonlocal. 


除了 在 装饰 器 中 有 用 处 之 外 ， 闭 包 还 是 回调 式 异步 编程 和 函数 式 编程 风格 的 基础 。 


本 章 的 最 终 目 标 是 解释 清楚 函数 装饰 器 的 工作 原理 ， 包 括 最 简单 的 注册 装饰 器 和 较 复杂 的 
参数 化 装饰 器 。 但 是 ， 在 实现 这 一 目标 之 前 ， 我 们 要 讨论 下 述 话题 : 


。 Python 如 何 计算 装饰 器 句法 
e Python 如 何 判断 变量 是 不 是 局 部 的 
。 闭 包 存 在 的 原因 和 工作 原理 
e nonlocal 能 解决 什么 问题 
掌握 这 些 基 础 知识 后 ， 我 们 可 以 进一步 探讨 装饰 器 : 
。 实 现行 为 良好 的 装饰 器 
。 标 准 库 中 有 用 的 装饰 器 
。 实现 一 个 参数 化 装饰 器 
下 面 将 首先 介绍 装饰 器 的 基础 知识 ， 然 后 再 讨论 上 面 列 出 的 各 个 话题 。 















































































































































7.1 装饰 器 基础 知识 






























































装饰 器 是 可 调用 的 对 象 ， 其 参数 是 另 一 个 函数 (被 装饰 的 函数 ) 。? 装饰 器 可 能 会 处 理 被 
装饰 的 函数 ， 然 后 把 它 返 回 ， 或 者 将 其 蔡 换 成 另 一 个 函数 或 可 调用 对 象 。 
Python 也 支持 类 装饰 器 ， 参 见 第 21 章 。 
假如 有 个 名 为 decorate 的 装饰 器 : 
@decorate 
def target(): 
print('running target()') 
上 述 代 码 的 效果 与 下 述 写法 一 样 : 
def target(): 
print('running target()') 
target = decorate(target) 
两 种 写法 的 最 终结 果 一 样 : 上 述 两 个 代码 片段 执行 完毕 后 得 到 的 target 不 一 定 是 原来 那 





个 target MA, iz decorate(target) 返回 的 函数 。 
为 了 确认 被 装饰 的 函数 会 被 蔡 换 ， 请 看 示例 7-1 PAE 
示例 7-1 装饰 器 通常 把 函数 替换 成 另 一 个 函数 





a 


台 会 话 。 























>>> def deco(func): 
def inner(): 
print('running inner()') 
return inner © 
>>> @deco 
. def target(): @ 
print('running target()') 


>>> target() © 

running inner() 

>>> target © 

<function deco.<locals>.inner at @x10@63b598> 





Q deco 返回 inner 函数 对 象 。 
© 使 用 deco 装饰 target. 
@ 调用 被 装饰 的 target 其 实 会 运行 inner。 











O 审查 对 象 ， 发 现 target 现在 是 inner 的 引用 。 


严格 来 说 ， 装 饰 器 只 是 语法 糖 。 如 前 所 示 ， 闭 饰 器 可 以 像 常规 的 可 调用 对 象 那 样 调用 ， 其 
ee re me eel eee 
为 ) 时 。 























综 上 ， 芍 饰 器 的 一 大 特性 是 ， 能 把 被 装饰 的 函数 替换 成 其 他 函数 。 第 二 个 特性 是 ， 闭 饰 器 
在 加 载 模块 时 立即 执行 。 下 一 节 会 说 明 。 


7.2 ”了 Python 何 时 执行 装饰 器 


装饰 器 的 一 个 关键 特性 是 ， 它 们 在 被 装饰 的 函数 定义 之 后 立即 运行 。 这 通常 是 在 导入 时 
CBU Python 加 载 模块 时 ) ， 如 示例 7-2 中 的 registration.py 模块 所 示 。 























示例 7-2 registration.py 模块 





registry = [] © 


def register(func): @ 
print('running register(%s)' % func) © 
registry.append(func) @ 
return func 


@register © 
def f1(): 
print('running f1()') 


@register 
def £2(): 
print('running £2()') 


def f3(): © 
print('running #3()') 


def main(): O 
print('running main()') 
print('registry ->', registry) 
1() 
f2() 
f3() 


if _name =="' main_': 


main() © 








Q registry 保存 被 @register 装饰 的 函数 引用 。 

四 register 的 参数 是 一 个 函数 。 

O 为 了 演示 ， 显 示 被 装饰 的 函数 。 

@ if func FFA registry.» 

@ 返回 func: 必须 返回 函数 ;这 里 返回 的 函数 与 通过 参数 传 入 的 一 相 
O fl fil f2 # @register 装饰 。 

O £3 没有 装饰 。 


© main 显示 registry， 然 后 调用 f1()、f2() 和 f3()。 





33) 


o 








© 只 有 把 registration.py 当 作 脚 本 运行 时 才 调 用 main() . 
把 registration.py 当 作 脚本 运行 得 到 的 输出 如 下 : 











$ python3 registration.py 

running register(<function f1 at 0x100631bf8>) 

running register(<function f2 at 0x100631c80>) 

running main() 

registry -> [<function f1 at @x100631bf8>, <function f2 at 6x166631c86>] 
running f1() 

running £2() 

running £3() 








y 


JER, register 在 模块 中 其 他 函数 之 前 运行 〈 两 次 ) 。 调 用 register 时 ， 传 给 它 的 
数 是 被 装饰 的 函数 ， 例 如 <function f1 at @x100631bf8>. 


加 载 模块 后 ，registry 中 有 两 个 被 装饰 函数 的 引用 : f1 和 f2。 这 两 个 函数 ， 以 及 f3, 
只 在 main 明确 调用 它们 时 才 执 行 。 


如 果 导 入 registration.py 模块 〈 不 作为 脚本 运行 ) ， 输 出 如 下 : 























>>> import registration 
running register(<function f1 at 0x10@63b1e@>) 
running register(<function f2 at @x10@63b268>) 











此 时 查看 registry 的 值 ， 得 到 的 输出 如 下 : 


>>> registration.registry 
[<function f1 at @x10063b1e@>, <function f2 at 0x10063b268>] 


示例 7-2 主要 想 强 调 ， 消 数 装 饰 器 在 导入 模块 时 立即 执行 ， 而 被 装饰 的 函数 只 在 明确 调用 
时 运行 。 这 突出 了 Python 程序 员 所 说 的 导入 时 和 运行 时 之 间 的 区 别 。 


考虑 到 装饰 器 在 真实 代码 中 的 常用 方式 ， 示 例 7-2 有 两 个 不 寻常 的 地 方 。 


o 装饰 器 函数 与 被 装饰 的 函数 在 同一 个 模块 中 定义 。 实 际 情况 是 ， 装 饰 器 通常 在 一 个 模 
块 中 定义 ， 然 后 应 用 到 其 他 模块 中 的 函数 上 。 


。 register ee a 过 参数 传 入 的 相同 。 实 际 上 ， 大 多 数 装 饰 器 会 在 内 
部 定义 一 个 函数 ， 然 后 将 其 


虽然 示例 7-2 中 的 register 装饰 器 原封 不 动 地 返回 和 被 装饰 的 函数 ， 但 是 这 种 技术 并 非 没 
有 用 处 。 很 多 Python Web 框架 使 用 这 样 的 装饰 器 把 函数 添加 到 茶 种 中 央 注 册 处 ， 例 如 把 
URL 模式 映射 到 生成 HTTP 响应 的 函数 上 的 注册 处 。 这 种 注册 装饰 器 可 能 会 也 可 能 不 会 修 
改 被 装饰 的 函数 。 下 一 市 会 举例 说 明 。 






























































7.3 (EFA AR ih as CCE OR HS Be N 

使 用 注册 装饰 器 可 以 改进 6.1 节 中 的 电 商 促销 折扣 示例 。 

回顾 一 下 ， 示 例 6-6 的 主要 问题 是 ， 定 义 体 中 有 函数 的 名 称 ， 但 是 best_promo 用 来 判断 
哪个 折扣 幅度 最 大 的 promos 列表 中 也 有 函数 名 称 。 这 种 重复 是 个 问题 ， 因 为 新 增 策 略 函 
数 后 可 能 会 忘记 把 它 添加 到 promos 列表 中 ， 导 致 best_promo 忽略 新 策略 ， 而 且 不 报 
错 ， 为 系统 引入 了 不 易 察觉 的 缺陷 。 示 例 7-3 使 用 注册 装饰 器 解决 了 这 个 问题 。 


示例 7-3 promos 列表 中 的 值 使 用 promotion 装饰 器 填充 





























promos = [] © 


def promotion(promo_ func): @ 
promos. append(promo_func) 
return promo_func 


@promotion © 
def fidelity(order): 
""" 为 积分 为 1688 或 以 上 的 顾客 提供 5% 折 扣 """ 
return order.total() * .65 if order.customer.fidelity >= 1666 else 6 














@promotion 
def bulk_item(order) : 

""" 单 个 商品 为 26 个 或 以 上 时 提供 16% 折 扣 """ 
discount = @ 
for item in order.cart: 

if item.quantity >= 20: 

discount += item.total() * .1 

return discount 

















@promotion 
def large order(order): 
""" 订 单 中 的 不 同 商品 达到 16 个 或 以 上 时 提供 7% 折 扣 """ 
distinct_items = {item.product for item in order.cart} 
if len(distinct_items) >= 10: 
return order.total() * .07 
return @ 

















def best_promo(order): @ 
"" "选择 可 用 的 最 佳 折扣 























return max(promo(order) for promo in promos) 





Q promos 列表 起 初 是 空 的 。 

© promotion 把 promo_func 添加 到 promos 列表 中 ， 然 后 原封 不 动 地 将 其 返回 。 
© 被 @promotion 装饰 的 函数 都 会 添加 到 promos 列表 中 。 

@ best_promos 无 需 修改 ， 因 为 它 依赖 promos 列表 。 








与 6.1 节 给 出 的 方案 相 比 ， 这 个 方案 有 几 个 优点 。 
o 促销 策略 函数 无 需 使 用 特殊 的 名 称 〈 即 不 用 以 _promo 结尾 ) 。 


。@promotion 装饰 器 突出 了 被 装饰 的 函数 的 作用 ， 还 便于 临时 禁用 某 个 促销 策略 : 只 
需 把 装饰 器 注释 挥 。 
。 促销 折扣 策略 可 以 在 其 他 模块 中 定义 ， 在 系统 中 的 任何 地 方 都 行 ， 只 要 使 用 
@promotion 装饰 即 可 。 

不 过 ， 多 数 装饰 器 会 修改 被 装饰 的 函数 。 通 常 ， 它 们 会 定义 一 个 内 部 函数 ， 然 后 将 其 返 

回 ， 蔡 换 被 装饰 的 函数 。 使 用 内 部 函数 的 代码 几乎 都 要 靠 闭 包 才 能 正确 运作 。 为 了 理解 闭 

包 ， 我 们 要 退 后 一 步 ， 先 了 解 Python 中 的 变量 作用 域 。 
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7.4 变量 作用 域 规则 


在 示例 7-4 中 ， 我 们 定义 并 测试 了 一 个 函数 ， 它 读 取 两 个 变量 的 值 : 一 个 是 局 部 变量 a， 
是 函数 的 参数 ， 另 一 个 是 变量 b， 这 个 函数 没有 定义 它 。 


示例 7-4 一 个 函数 ， 读 取 一 个 局 部 变量 和 一 个 全 局 变量 






































>>> def f1(a): 
print(a) 
print(b) 
>>> f1(3) 
3 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in f1 
NameError: global name 'b' is not defined 








出 现 错误 并 不 奇怪 。3 在 示例 7-4 中 ， 如 果 先 给 全 局 变量 b 赋值 ， 然 后 再 调用 f， 那 就 不 


会 出 错 : 
































3 在 Python 3.5 中 ， 错 误 信 息 是 NameError: name 'b' is not defined， 删 除了 global。 一 一 编者 注 








>> b = 6 
>>> f1(3) 
3 
6 





下 面 看 一 个 可 能 会 让 你 吃惊 的 示例 。 


看 一 下 示例 7-5 中 的 f2 函数 。 前 两 行 代码 与 示例 7-4 中 的 f1 一样 ， 然 后 为 b 赋值 ， 再 打 
印 它 的 值 。 可 是 ， 在 赋值 之 前 ， 第 二 个 print 失败 了 。 


示例 7-5 b 是 局 部 变量 ， 因 为 在 函数 的 定义 体 中 给 它 赋值 了 


























>>> b = 6 

>>> def f2(a): 

Daig print(a) 
print(b) 
b=9 

>>> f2(3) 

3 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in f2 
UnboundLocalError: local variable 'b' referenced before assignment 











注意 ， 首 先 输出 了 3， 这 表明 print(a) 语句 执行 了 。 但 是 第 二 个 语句 print(b) 执行 不 














了 。 一 开始 我 很 吃惊 ， 我 觉得 会 打印 6， 因 为 有 个 全 局 变量 b， 而 且 是 在 print(b) 之 后 
为 局 部 变量 b 赋值 的 。 


可 事实 是 ，Python 编译 函数 的 定义 体 时 ， 它 判断 b 是 局 部 变量 ， 因 为 在 函数 中 给 它 赋 值 
了 。 生 成 的 字 节 码 证 实 了 这 种 判断 ，Python 会 尝试 从 本 地 环境 获取 b。 后 面 调用 f2(3) 
IN, F2 的 定义 体会 获取 并 打印 局 部 变量 a 的 值 ， 但 是 尝试 获取 局 部 变量 b 的 值 时 ， 发 现 
b 没有 绑 定 值 。 


这 个 是 缺陷 ， 而 是 设计 选择 : Python 不 要 求 声 明 变 量 ， 但 是 假定 在 函数 定义 体 中 赋值 的 变 
量 是 局 部 变量 。 这 比 JavaScript 的 行为 好 多 了 ，JavaScript 也 不 要 求 声明 变量 ， 但 是 如 果 
忘记 把 变量 声明 为 局 部 变量 (使 用 var) ， 可 能 会 在 不 知情 的 情况 下 获取 全 局 变量 。 


如 果 在 函数 中 赋值 时 想 让 解释 器 把 b 当成 全 局 变量 ， 要 使 用 global 声明: 





























































































































>>> b = 6 

>>> def 3(a): 

sae global b 
print(a) 
print(b) 
b = 9 


>>> f3(3) 
3 

6 

>>> b 

9 


>>> f3(3) 








了 解 Python 的 变量 作用 域 之 后 ， 下 一 节 可 以 讨论 财 包 了 。 如 果 好 奇 示例 7-4 和 示例 7-5 中 
的 两 个 函数 生成 的 字 节 码 有 什么 区 别 ， 请 阅读 下 述 附 注 栏 。 


比较 字 节 码 


dis 模块 为 反 汇 编 Python 函数 字 节 码 提 供 了 简单 的 方式 。 示 例 7-6 和 7-7 中 分 别 是 示 
例 7-4 中 f1 和 示例 7-5 中 f2 的 字 节 码 。 


示例 7-6 反 汇 编 示 例 7-4 中 的 f1 水 数 





























>>> from dis import dis 
>>> dis(f1) 


2 @ LOAD_GLOBAL 0 (print) @ 
3 LOAD_FAST o (a) @ 
6 CALL_FUNCTION 1 (1 positional, © keyword pair) 





9 POP_TOP 


LOAD_GLOBAL 
LOAD_GLOBAL 
CALL_FUNCTION 
POP_TOP 
LOAD_CONST 
RETURN_VALUE 


© (print) 
1 (b) © 
1 (1 positional, © keyword pair) 


© (None) 





@ 加 载 全 局 名 称 print. 
O 加 载 本 地 名 称 a。 
O 加 载 全 局 名 称 b。 





请 比较 示例 7-6 中 f1 的 字 节 码 和 示例 7-7 中 f2 的 字 节 码 。 


示例 7-7 反 汇 编 示 例 7-5 中 的 f2 函数 


>>> dis(f2) 
2 





OonW @G 


10 
13 
16 
19 


20 
23 
26 
29 


LOAD_GLOBAL 
LOAD_FAST 
CALL_FUNCTION 
POP_TOP 


LOAD_GLOBAL 
LOAD_FAST 
CALL_FUNCTION 
POP_TOP 


LOAD_CONST 
STORE_FAST 
LOAD_CONST 
RETURN_VALUE 


8 (print) 
8 (a) 
1 (1 positional, @ keyword pair) 


8 (print) 
1 (b) © 
1 (1 positional, © keyword pair) 


1 (9) 
1 (b) 
@ (None) 


O 加 载 本 地 名 称 b。 这 表明 ， 编 译 器 把 b 视 作 局 部 变量 ， 即 使 在 后 面 才 为 b 赋值 ， 


因为 变量 的 种 类 (是 不 是 局 部 变 























) 不 能 改变 函数 的 定义 体 。 








运行 字 节 码 的 CPython VM 是 栈 机 器 ， 因 此 LOAD 和 POP 操作 引用 的 是 栈 。 深 入 说 明 
Python 操作 码 不 在 本 书 范畴 之 内 ， 不 过 dis 模块 的 文档 
Chttp:/docs.python.org/3/library/dis.html) 对 其 做 了 说 明 。 











75 WA, 


ERZE, MTA EA ee 4 RAE. KEARNY: 在 函数 内 部 定义 函数 
不 常见 ， 直 到 开始 使 用 匿名 函数 才 会 这 样 做 。 而 且 ， 只 有 涉及 藤 套 函数 时 才 有 闭 包 问 题 。 
因此 ， 很 多 人 是 同时 知道 这 两 个 概念 的 。 


其 实 ， 闭 包 指 延 伸 了 作用 域 的 函数 ， 其 中 包含 函数 定义 体 中 引用 、 但 是 不 在 定义 体 中 定义 
的 非 全 局 变量 。 函 数 是 不 是 匿名 的 没有 关系 ， 关 键 是 它 能 访问 定义 体 之 外 定义 的 非 全 局 变 


时 






















































































这 个 概念 难以 掌握 ， 最 好 通过 示例 理解 。 
假如 有 个 名 为 avg 的 函数 ， 它 的 作用 是 计算 不 断 增 加 的 系列 值 的 均值 ， 例 如 ， 整 个 历史 
I 每 天 都 会 增加 新 价格 ， 因 此 平均 值 要 考虑 至 目前 为 止 所 有 的 价 


起 初 ，avg 是 这 样 使 用 的 : 
































>>> avg(10) 
10.0 
>>> avg(11) 
10.5 
>>> avg(12) 
11.0 








ave 从 何 而 来 ， 它 又 在 哪里 保存 历史 值 呢 ? 
初学 者 可 能 会 像 示 例 7-8 那样 使 用 类 实现 。 
示例 7-8 average_ oo.py: 计算 移动 平均 值 的 类 











class Averager(): 


def _ init__(self): 
self.series = [] 


def _call_ (self, new_value): 
self.series.append(new_value) 
total = sum(self.series) 
return total/len(self.series) 








Averager 的 实例 是 可 调用 对 象 : 





>>> avg = Averager() 
>>> avg(16) 

10.0 

>>> avg(11) 

10.5 


>>> avg(12) 
11.0 





示例 7-9 是 函数 式 实 现 ， 使 用 高 阶 函 数 make_averager。 
示例 7-9 average.py: 计算 移动 平均 值 的 高 阶 函 数 


def make_averager(): 
series = [] 


def averager(new_value): 
series.append(new_value) 
total = sum(series) 
return total/len(series) 


return averager 





调用 make_averager 时 ， 返 回 一 个 averager 函数 对 象 。 每 次 调用 averager 时 ， 它 会 
把 参数 添加 到 系列 值 中 ， 然 后 计算 当前 平均 值 ， 如 示例 7-10 所 示 。 


示例 7-10 测试 示例 7-9 


>>> avg = make_averager() 
>>> avg(10) 

10.0 

>>> avg(11) 

10.5 

>>> avg(12) 

11.0 





注意 ， ee 调用 Averager() #{ make_averager() 得 到 一 个 可 调用 

对 象 avg， 它 会 更 新 历史 值 ， 然 后 计算 当前 均值 。 在 示例 7-8 H, avg 是 Averager 的 实 

fil; 在 示例 7 9 中 是 内 部 函数 averager。 不 管 怎 样 ， 我 们 都 只 需 调用 avg(n)， 把 n 放 
入 系列 值 中 ， 然 后 重新 计算 均值 。 


Averager 类 的 实例 avg 在 哪里 存储 历史 值 很 明显 : self.series 实例 属性 。 但 是 第 二 
个 示例 中 的 avg 函数 在 哪里 寻找 series We? 


注意 ，series 是 make_averager 函数 的 局 部 变量 ， 因 为 那个 函数 的 定义 体 中 初始 化 了 
series: series = []。 可 是 ， 调 用 avg(16) IN, make_averager 函数 已 经 返回 了 ， 
而 它 的 本 地 作用 域 也 一 去 不 复 返 了 


在 averager 函数 中 ， ZA 由 变量 (free variable) 。 这 是 一 个 技术 术语 ， 指 未 在 
本 地 作用 域 中 绑 定 的 变量 ， 参 见 图 7-1。 




































































def make averager(): 


total = (series) 
return total/len(series) 





return averager 
7-1: averager 的 闭 包 延伸 到 那个 函数 的 作用 域 之 外 ， 包 含 自 由 变量 series 的 绑 
定 





审查 返回 的 averager 对 象 ， 我 们 发 现 Python Æ _ code 属性 (表示 编译 后 的 函数 定义 
VS) 中 保存 局 部 变量 和 自由 变量 的 名 称 ， 如 示例 7-11 所 示 。 


示例 7-11 审查 make_averager ( 见 示 例 7-9) 创建 的 函数 























>>> avg._ code .co varnames 
('new value', 'total') 


>>> avg._ code .co freevars 
('series',) 





series 的 绑 定 在 返回 的 avg MBA closure 属性 中 。avg. closure _ 中 的 各 个 
元 素 对 应 于 avg.__code__.co_freevars 中 的 一 个 名 称 。 这 些 元 素 是 cell WR, At 
cell_contents 属性 ， 保 存 着 真正 的 值 。 这 些 属性 的 值 如 示例 7-12 所 示 。 


示例 7-12 ”接续 示例 7-11 





>>> avg._ code .co freevars 

('series',) 

>>> avg.__closure__ 

(<cell at 0x107a44f78: list object at 0x107a91a48>, ) 
>>> avg.__closure__[@].cell_contents 

[10, 11, 12] 




















综 上 ， 闭 包 是 一 种 函数 ， 它 会 保留 定义 函数 时 存在 的 自由 变量 的 绑 定 ， 这 样 调 用 函数 时 ， 
虽然 定义 作用 域 不 可 用 了 ， 但 是 仍 能 使 用 那些 绑 定 。 


注意 ， 只 有 风 套 在 其 他 函数 中 的 函数 才 可 能 需要 处 理 不 在 全 局 作用 域 中 的 外 部 变量 。 











7.6 nonlocal" 4H 


前 面 实现 make_averager 函数 的 方法 效率 不 高 。 在 示例 7-9 中 ， 我 们 把 所 有 值 存储 在 历 
史 数 列 中 ， 然 后 在 每 次 调用 averager 时 使 用 sum 求 和 。 更 好 的 实现 方式 是 ， 只 存储 目 
前 的 总 值 和 元 素 个 数 ， 然 后 使 用 这 两 个 数 计算 均值 。 
示例 7-13 中 的 实现 有 缺陷 ， 只 是 为 了 阐明 观点 。 你 能 看 出 缺陷 在 哪儿 吗 ? 


示例 7-13 ”计算 移动 平均 值 的 高 阶 函 数 ， 不 保存 所 有 历史 值 ， 但 有 缺陷 
































def make_averager(): 
count = @ 
total = 6 


def averager(new_value): 
count += 1 
total += new_value 
return total / count 


return averager 











尝试 使 用 示例 7-13 中 定义 的 函数 ， 会 得 到 如 下 结果 : 








>>> avg = make_averager() 
>>> avg(10) 
Traceback (most recent call last): 


UnboundLocalError: local variable ‘count' referenced before assignment 
>>> 








问题 是 ， 当 count 是 数字 或 任何 不 可 变 类 型 时 ，count += 1 语句 的 作用 其 实 与 count 
7 ae + 1 一 样 。 因 此， 我 们 在 averager 的 定义 体 中 为 count 赋值 了 ， 这 会 把 
count 变 成 局 部 变量 。total 变量 也 受 这 个 问题 影响 。 


示例 7-9 没 遇 到 这 个 问题 ， 因 为 我 们 没有 给 series 赋值 ， 我 们 只 是 调用 
series.append， 并 把 它 传 给 sum 和 len。 也 就 是 说 ， 我 们 利用 了 列表 是 可 变 的 对 象 这 
一 事实 。 


但 是 对 数字 、 字符 串 、 元 组 等 不 可 变 类 型 来 说 ， 只 能 读 取 ， 不 能 更 新 。 如 果 尝 试 重新 绑 
定 ， 例 如 count = count + 1， 其 实 会 隐 式 创建 局 部 变量 count。 这 样 ，count 就 不 是 
自由 变量 了 ， 因 此 不 会 保存 在 闭 包 中 。 


为 了 解决 这 个 问 题 ，Python 3 引入 了 nonlocal 声明 。 它 的 作用 是 把 变量 标记 为 自由 变 
量 ， 即 使 在 函数 中 为 变量 赋予 新 值 了 ， 也 会 变 成 自由 变量 。 如 果 为 nonlocal 声明 的 变量 
赋予 新 值 ， 闭 包 中 保存 的 绑 定 会 更 新 。 最 新 版 make_averager 的 正确 实现 如 示例 7-14 所 
TR o 





























































































































示例 7-14 ”计算 移动 平均 值 ， 不 保存 所 有 历史 《使 用 nonlocal 修正 ) 


def make_averager(): 
count = 6 
total = 6 


def averager(new_value): 
nonlocal count, total 
count += 1 
total += new_value 
return total / count 


return averager 











AI 对 付 没 有 nonlocal 的 Python 2 











Python 2 没有 nonlocal， 因 此 需要 变通 方法 ，“PEP 3104—Access to Names in Outer 
Scopes” (nonlocal 在 这 个 PEP #4] A, http://www.python.org/dev/peps/pep-3104/) 
中 的 第 三 个 代码 片段 给 出 了 一 种 方法 。 基 本 上 ， 这 种 处 理 方式 是 把 内 部 函数 需要 修改 
的 变量 (如 count 和 total) 存储 为 可 变 对 象 〈 如 字典 或 简单 的 实例 ) 的 元 素 或 属 
性 ， 并 且 把 那个 对 象 绑 定 给 一 个 自由 变量 。 


里 


















































至 此 ， 我 们 了 解 了 Python 财 包 ， 下 面 可 以 使 用 符 套 函数 正式 实现 装饰 器 了 。 





7.7 ”实现 一 个 简单 的 装饰 喜 


示例 7-15 定义 了 一 个 装饰 器 ， 它 会 在 每 次 调用 被 装饰 的 函数 时 计时 ， 然 后 把 经 过 的 时 
间 、 fe ty SHCA NEE RAT ee 


示例 7-15 ”一 个 简单 的 装饰 器 ， 输 出 函数 的 运行 时 间 








import time 


def clock(func): 

def clocked(*args): #@ 
tð = time.perf_counter() 
result = func(*args) #@ 
elapsed = time.perf_counter() - toe 
name = func. name _ 
arg str = ', '.join(repr(arg) for arg in args) 
print('[%0@.8fs] %s(%s) -> %r' % (elapsed, name, arg str, result)) 
return result 

return clocked # © 





O 定义 内 部 函数 clocked， 它 接受 任意 个 定位 参数 。 

四 这 行 代 码 可 用 ， 是 因为 clocked 的 闭 包 中 包含 自由 变量 func. 

四 返回 内 部 函数 ， 取 代 被 装饰 的 函数 。 示 例 7-16 演示 了 clock 装饰 器 的 用 法 。 
示例 7-16 使 用 clock 装饰 器 



































# clockdeco demo.py 


import time 
from clockdeco import clock 


@clock 
def snooze(seconds): 
time.sleep(seconds) 


@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


if _name ==' main _ 
print('*' * 40, ‘Calling snooze(.123)') 
snooze(.123) 
print('*' * 40, ‘Calling factorial(6)') 
print('6! =', factorial(6)) 








运行 示例 7-16 得 到 的 输出 如 下 : 


$ python3 clockdeco_demo.py 


FEISS o ICC I IOC I OCI OK Calling snooze(123) 


[@.12405610s] snooze(.123) -> None 

ÞK K K FK FK FK FK K K OK K K K K K K K K K K OK K K K OK K FK OK OK OK FK FK OK OK K K K K Calling factorial(6) 
[0.00000191s] factorial(1) -> 1 

[0.00004911s] factorial(2) -> 2 

[0.00008488s] factorial(3) -> 6 

[0.00013208s] factorial(4) -> 24 

[0.00019193s] factorial(5) -> 120 

[8.66626167s] factorial(6) -> 720 





工作 原理 
记得 吗 ， 如 下 代码 : 











@clock 
def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 








其 实 等 价 于 : 





def factorial(n): 
return 1 if n < 2 else n*factorial(n-1) 


factorial = clock(factorial) 








因此 ， 在 两 个 示例 中 ，factorial 会 作为 func BRUEA clock (参见 示例 7-15) 。 然 
Ja, clock 函数 会 返回 clocked 函数 ，Python 解释 器 在 背后 会 把 clocked 赋值 给 
factorial。 其 实 ， 导 入 clockdeco_demo 模块 后 查看 factorial 的 __name__ 属性 ， 
会 得 到 如 下 结果 : 

















>>> import clockdeco demo 

>>> clockdeco demo.factorial. name _ 
"clocked ' 

>>> 








所 以 ， 现 在 factorial 保存 的 是 clocked 函数 的 引用 。 自 此 之 后 ， 每 次 调用 
factorial(n)， 执 行 的 都 是 clocked(n)。clocked 大 致 做 了 下 面 几 件 事 。 


(1) 记录 初始 时 间 te。 

(2) 调用 原来 的 factorial 函数 ， 保 存 结果 。 
(3) 计算 经 过 的 时 间 。 

(4) 格式 化 收集 的 数据 ， 然 后 打印 出 来 。 

















(5) 返回 第 2 步 保 存 的 结 


这 是 装饰 器 的 典型 行为 :把 被 装饰 的 函数 蔡 换 成 新 函数 ， 二 者 接受 相同 的 参数 ， 而 且 《〈 通 
常 ) 返回 被 装饰 的 函数 本 该 返回 的 值 ， 同 时 还 会 做 些 额外 操作 。 








~I Gamma 等 人 写 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 是 这 样 概 

述 “ 装 饰 器 ”模式 的 :“ 动 态 地 给 一 个 对 象 添加 一 些 额 外 的 职责 。” 函 数 装 饰 器 符合 这 一 
说 法 。 但 是 ， 在 实现 层面 ，Python 装饰 器 与 《设计 模式 : 可 复 用 面向 对 象 软件 的 基 
础 》 中 所 述 的 “装饰 器 ”没有 多 少 相 似 之 处 。 “杂谈 ”会 进一步 探讨 这 个 话题 。 

示例 7-15 中 实现 的 clock 装饰 器 有 几 个 缺点 : 不 文 持 关 键 字 参 数 ， 而 且 遮 盖 了 被 装饰 函 

数 的 _name 和 doc 属性。 示例 7-17 使 用 a wraps 装饰 器 把 相关 的 属 

性 从 func 复制 到 clocked 中 。 此 外 ， 这 个 新 版 还 能 正确 处 理 关 键 字 参数 。 


示例 7-17 改进 后 的 clock 装饰 器 






























































# clockdeco2.py 


import time 
import functools 


def clock(func): 
@functools.wraps (func) 
def clocked(*args, **kwargs): 
to = time.time() 
result = func(*args, **kwargs) 
elapsed = time.time() - to 
name = func. name _ 
arg lst = [] 
if args: 
arg _lst.append(', '.join(repr(arg) for arg in args)) 
if kwargs: 
pairs = ['%s=%r' % (k, w) for k, w in sorted(kwargs.items()) ] 
arg _lst.append(', '.join(pairs) ) 
arg str = ', '.join(arg_l1st) 
print('[%0.8fs] %s(%s) -> %r ' % (elapsed, name, arg _ str, result)) 
return result 
return clocked 





functools.wraps 只 是 标准 库 中 拿 来 即 用 的 装饰 器 之 一 。 下 一 节 将 介绍 functools 模块 
中 最 让 人 印象 深刻 的 两 个 装饰 器 : lru_cache 和 singledispatch. 





7.8 标准 库 中 的 装饰 器 


Python 内 置 了 三 个 用 于 装饰 方法 的 函数 : property, classmethod 和 
staticmethod. property 在 19.2 节 讨 论 ， 另 外 两 个 在 9.4 节 讨 论 。 


一 个 常见 的 装饰 器 是 functools .wraps， 它 的 作用 是 协助 构建 行为 良好 的 装饰 器 。 我 
们 在 示例 7-17 中 用 过 。 标 准 库 中 最 值得 关注 的 两 个 装饰 器 是 lru_cache 和 全 新 的 
兽 ) 。 这 两 个 装饰 器 都 在 functools 模块 中 定义 。 接 下 


FA 


singledispatch (Python 3.4 新 





来 分 别 讨论 它们 。 











7.8.1 ”使 用 functools .lru_cache 做 备 访 


functools.lru_cache 是 非常 实用 的 装饰 器 ， 它 实现 了 备 忘 (memoization) 功能 。 这 是 
一 项 优化 技术 ， 它 把 耗 时 的 函数 的 结果 保存 起 来 ， 避 免 传 入 相同 的 参数 时 重复 计算 。LRU 
三 个 字母 是 “Least Recently Used” 的 缩写 ， 表 明 缓 存 不 会 无 限制 


A SRF 


Ir 
































曾 长 ， 一 段 时 间 不 用 的 缓存 


A AS nS SEDAN FR E R VF] pa LG EH 1ru_cache， 如 示例 7-18 所 示 。 


示例 7-18 ÆRE n 


PSEA RB, HVAT RIE EIT 








from clockdeco import clock 


@c 


lock 


def fibonacci(n): 


if n < 2: 


return n 
return fibonacci(n-2) + fibonacci(n-1) 


if _ name_=='_ main_': 
print (fibonacci(6) ) 














运行 fbo_demo.py 得 到 的 结果 如 下 。 除 了 最 后 一 行 ， 其 余 输出 都 是 clock 装饰 器 生成 


的 


o 





$ python3 fibo_demo. py 


.00000095s ] 
.00000095s ] 
.00007892s ] 
.00000095s ] 
.00000095s ] 
.00000095s ] 
.00003815s] 
.00007391s] 
.00018883s ] 
. 00000009s | 
.00000095s ] 
.00000119s ] 


fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(1) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(4) 
fibonacci(1) 
fibonacci(@) 
fibonacci(1) 


FP ORPWNRFPRPORKREFRO 





. 000049115 ] 
.00009704s ] 
. 00000009s ] 
. 00000009s | 
.00002694s ] 
.00000095s ] 
.00000095s ] 
.00000095s ] 
.00005102s] 
.00008917s] 
.00015593s] 
. 080299935] 
.0005281@s ] 


fibonacci(2) 
fibonacci(3) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(1) 
fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(4) 
fibonacci(5) 
fibonacci(6) 


OUWNRFRPrRFPORRFPRPONEF 





浪费 时 间 的 地 方 很 明显 : fibonacci(1) 调用 





Her WRH 


兽 加 两 行 代码 ， 使 用 lru_cache, tE 


示例 7-19 使 用 缓存 实现 ， 速 度 更 快 


@functools 


if n < 


return 





E 
@ 注意 ， 


import functools 


from clockdeco import clock 


.lru cache() # © 


@clock #@ 
def fibonacci(n): 


2: 


return n 


fibonacci(n-2) + fibonacci(n-1) 


if _name =="' main_': 
print (fibonacci(6) ) 











, fibonacci(2) 调用 了 5 次 ...... 但 





改善 ， 如 示例 7-19 所 示 。 


I 





必须 像 常 规 函数 那样 调用 lru_cache。 这 一 行 中 有 一 对 括 





号 : @functools .lru_cache()。 这 么 做 的 原因 是 ，1lru_cache 可 以 接受 配置 参数 ， 稍 


后 说 明 。 


四 这 里 释放 了 装饰 器 : @lru_cache() 应 用 到 @clock 返回 的 函数 上 。 





这 样 一 来 ， 执 行 时 间 减 半 了 ， 而 且 n 的 每 个 值 只 调用 








.00000119s ] 
.00000119s ] 
.00010809s ] 
.90006787s] 
.00016093s ] 
.00001216s ] 
.00025296s] 








fibonacci(@) 
fibonacci(1) 
fibonacci(2) 
fibonacci(3) 
fibonacci(4) 
fibonacci(5) 
fibonacci(6) 
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次 函数 : 











在 计算 fibonacci(36) 的 另 一 个 测试 中 ， 示 例 7-19 中 的 版 本 在 0.0005 秒 内 调用 了 31 次 
fibonacci 函数 ， 而 示例 7-18 中 未 缓存 的 版 本 调用 fibonacci 函数 2 692 537 次 ， 在 使 
用 Intel Core i7 处 理 器 的 笔记 本 电脑 中 耗 时 17.7 秒 。 

除了 优化 递归 算法 之 外 ，lru_cache 在 从 Web 中 获取 信息 的 应 用 中 也 能 发 挥 巨大 作用 。 


特别 要 注意 ，1lru_cache 可 以 使 用 两 个 可 选 的 参数 来 配置 。 它 的 签名 是 : 









































functools.1lru_cache(maxsize=128, typed=False) 























maxsize 参数 指定 存储 多 少 个 调用 的 结果 。 组 存 满 了 之 后 ， 旧 的 结果 会 被 扔 掉 ， 腾 出 空 
间 。 为 了 得 到 最 佳 性 能 ，maxsize 应 该 设 为 2 We. typed 参数 如 果 设 为 True， 把 不 同 
参数 类 型 得 到 的 结果 分 开 保 存 ， 即 把 通常 认为 相等 的 浮 点 数 和 整数 参数 (如 1 和 1.6) 区 
分 开 。 顺 便 说 一 下 ， 因 为 Iru_cache 使 用 字典 存储 结果 ， 而 且 键 根据 调用 时 传 入 的 定位 
Gee ne 所 以 被 lru_cache 装饰 的 函数 ， 它 的 所 有 参数 都 必须 是 可 散 列 









































接 下 来 讨论 吸引 人 的 functools.singledispatch 装饰 器 。 
7.8.2 FITIR eA BL 


T adel 试 Web 应 用 的 工具 ， 我 们 想 生成 HTML， 显 示 不 同类 型 的 Python 
对 象 。 


我 们 可 能 会 编写 这 样 的 函数 : 





import html 


def htmlize(obj): 


content = html.escape(repr(obj)) 
return '<pre>{}</pre>'.format (content) 








这 个 函数 适用 于 任何 Python 类 型 ， 但 是 现在 我 们 想 做 个 扩展 ， 让 它 使 用 特别 的 方式 显示 
某 些 类 型 。 


e str: 把 内 部 的 换行 符 蔡 换 为 '<br>\n'; 不 使 用 <pre>， 而 是 使 用 <p>. 
e int: 以 十 进 制 和 十 六 进 制 显示 数字 。 

e list: 输出 一 个 HTML 列表 ， 根 据 各 个 元 素 的 类 型 进行 格式 化 。 
我 们 想 要 的 行为 如 示例 7-20 所 示 。 

示例 7-20 生成 HIML 的 htmlize 函数 ， 调 整 了 几 种 对 象 的 输出 


>>> htmlize({1, 2, 3}) © 

















'<pre>{1, 2, 3}</pre>' 

>>> htmlize(abs) 

"<pre><built-in function abs></pre>' 

>>> htmlize('Heimlich & Co.\n- a game') @ 
"<p>Heimlich & Co.<br>\n- a game</p>' 

>>> htmlize(42) © 

"<pre>42 (@x2a)</pre>' 

>>> print(htmlize(['alpha', 66, {3, 2, 1}])) @ 
<ul> 

<1i><p>alpha</p></1i> 

<li><pre>66 (@x42)</pre></1li> 

<li><pre>{1, 2, 3}</pre></li> 

</ul> 











@ 默认 情况 下 ， 在 <pre></pre> 中 显示 HTML 转 义 后 的 对 象 字符 串 表示 形式 。 


ON str 对 象 显示 的 也 是 HTML 转 义 后 的 字符 串 表 示 形 式 ， 不 过 放 在 <p></p> P, mH 
使 用 <br> 表示 换行 。 


O int 显示 为 十 进 制 和 十 六 进 制 两 种 形式 ， 放 在 <pre></pre> 中 。 
@ 名 个 列表 项 目 根 据 各 自 的 类 型 格式 化 ， 整 个 列表 则 泻 染 成 HTML 列表 。 


因为 Python 不 文 持 重 载 方法 或 函数 ， 所 以 我 们 不 能 使 用 不 同 的 签名 定义 htmlize 的 变 
体 ， 也 无 法 使 用 不 同 的 方式 处 理 不 同 的 数据 类 型 。 在 Python 中 ， 一 种 常见 的 做 法 是 把 
htmlize 变 成 一 个 分 派 函数 ， 使 用 一 串 if/elif/elif， 调 用 专门 的 函数 ， 如 
htm1ize_str、htm1lize_int， 等 等 。 这 样 不 便于 模块 的 用 户 扩 展 ， 还 显得 笨拙 : 时 间 
一 长 ， 分 派 函数 htmlize 会 变 得 很 大 ， 而 且 它 与 各 个 专门 函数 之 间 的 耦合 也 很 紧密 。 


Python 3.4 新 增 的 functools .singledispatch 装饰 器 可 以 把 整体 方案 拆 分 成 多 个 模 
块 ， 甚 至 可 以 为 你 无 法 修改 的 类 提供 专门 的 函数 。 使 用 @singledispatch 装饰 的 普通 函 
数 会 变 成 泛 函 数 (generic function) : 根据 第 一 个 参数 的 类 型 ， 以 不 同方 式 执行 相同 操作 
的 一 组 函数 。4 具体 做 法 参见 示例 7-21。 






















































































“这 才 称 得 上 是 单 分 派 。 如 果 根 据 多 个 参数 选择 专门 的 函数 ， 那 就 是 多 分 派 了 。 














AI functools.singledispatch Æ Python 3.4 增加 的 ，PyPI 中 的 
singledispatch 包 (https://pypi.python.org/pypi/singledispatch) 可 以 向 后 兼容 Python 
2.6 到 Python 3.3。 








示例 7-21 singledispatch 创建 一 个 自 定义 的 htmlize.register 装饰 器 ， 把 多 
个 函数 绑 在 一 起 组 成 一 个 泛 函 数 





from functools import singledispatch 
from collections import abc 

import numbers 

import html 


@singledispatch @ 





def htmlize(obj): 
content = html.escape(repr(obj)) 
return '<pre>{}</pre>'.format (content) 


@htmlize.register(str) @ 
def (text): © 
content = html.escape(text).replace('\n', '<br>\n') 
return '<p>{0}</p>'.format(content) 


@htmlize.register(numbers.Integral) @ 
def _(n): 
return '<pre>{0} (@x{@:x})</pre>'.format(n) 


@htmlize.register(tuple) © 
@htmlize.register(abc.MutableSequence) 
def _(seq): 
inner = '</1i>\n<li>'.join(htmlize(item) for item in seq) 
return '<ul>\n<li>' + inner + '</1i>\n</ul>' 




















Q @singledispatch 标记 处 理 object AMMA KZ 

四 各 个 专门 函数 使 用 @kbase_ function». register(«type») 装饰 。 

O 专门 函数 的 名 称 无 关 紧 要 ; _ 是 个 不 错 的 选择 ， 简 单 明 了 。 

O 为 每 个 需要 特殊 处 理 的 类 型 注册 一 个 函数 。numbers .Integral 是 int 的 虚拟 超 类 。 
O TWAT register 装饰 器 ， 让 同一 个 函数 支持 不 同类 型 。 

只 要 可 能 ， 注 册 的 专门 函数 应 该 处 理 抽象 基 类 (如 numbers .Integral 和 
abc.MutableSequence) ， 不 要 处 理 具体 实现 〈 如 int 和 list) 。 这 样 ， 代 码 文 持 的 


兼容 类 型 更 广泛 。 例 如 ，Python 扩展 可 以 子 类 化 numbers .Integral， 使 用 固定 的 位 数 实 
现 int 类 型 。 




































































a 使 用 抽象 基 类 检查 类 型 ， 可 以 让 代码 支持 这 些 抽 象 基 类 现 有 和 未 来 的 具体 子 类 
或 虚拟 子 类 。 抽 象 基 类 的 作用 和 虚拟 子 类 的 概念 在 第 11 章 讨论 。 


singledispatch 机 制 的 一 个 显著 特征 是 ， 你 可 以 在 系统 的 任何 地 方 和 任何 模块 中 注册 专 
门 函数 。 如 果 后 来 在 新 的 模块 中 定义 了 新 的 类 型 ， 可 以 轻松 地 添加 一 个 新 的 专门 函数 来 处 
理 那 个 类 型 。 此 外 ， 你 还 可 以 为 不 是 自己 编写 的 或 者 不 能 修改 的 类 添加 自 定义 函数 。 


singledispatch 是 经 过 深思 熟 虑 之 后 才 添 加 到 标准 库 中 的 ， 它 提供 的 特性 很 多 ， 这 里 无 
法 一 一 说 明 。 这 个 机 制 最 好 的 文档 是 “PEP 443 一 Single-dispatch generic 
functions” Chttps://www.python.org/dev/peps/pep-0443/) 。 









































` @singledispatch 不 是 为 了 把 Java 的 那 种 方法 重 载 带 入 Python。 在 一 个 类 中 
为 同一 个 方法 定义 多 个 重 载 变 体 ， 比 在 一 个 函数 中 使 用 一 长 串 if/elif/elif/elif 














块 要 更 好 。 但 是 这 两 种 方案 都 有 缺陷 ， 因 为 它们 让 代码 单元 〈 类 或 函数 ) 承担 的 职责 
KZ. @singledispath 的 优点 是 支持 模块 化 扩展 : 各 个 模块 可 以 为 它 支 持 的 各 个 类 
型 注册 一 个 专门 函数 。 


装饰 器 是 函数 ， 因 此 可 以 组 合 起 来 使 用 〈 即 ， 可 以 在 已 经 被 装饰 的 函数 上 应 用 装饰 器 ， 如 
示例 7-21 所 示 ) 。 下 一 节 说 明 其 中 的 原 























7.9 SMR Vii at 

示例 7-19 Yas T BBE ASAT: @1lru_cache 应 用 到 @clock 装饰 Fibonacci 得 到 
的 结果 上 。 在 示例 7-21 中 ， 模 块 中 最 后 一 个 函数 应 用 了 两 个 @htmlize.register 装饰 
器 。 

把 @d1 和 @d2 两 个 装饰 器 按 顺 序 应 用 到 f 函数 上 ， 作 用 相当 于 f = d1(d2(f) )。 


也 就 是 说 ， 下 述 代码 : 








@d1 

@d2 

def f(): 
print('f') 


def f(): 
print('f') 


f = d1(d2(f)) 





IRT EWR as ob, FALAR TILE RAS Aa @1ru_cache() 和 示 
il] 7-21 中 @singledispatch 生成 的 htmLlize.register(ektype>)。 下 一 节 说 明 如 何 构 
建 接受 参数 的 装饰 器 。 








710 ”参数 化 装饰 器 


解析 源码 中 的 装饰 器 时 ，Python 把 被 装饰 的 函数 作为 第 一 个 参数 传 给 装饰 器 函数 。 那 怎么 
让 装饰 器 接受 其 他 参数 呢 ? 答案 是 : 创建 一 个 装饰 器 工厂 函数 ， 把 参数 传 给 它 ， 返 回 一 个 
装饰 器 ， 然 后 再 把 它 应 用 到 要 装饰 的 函数 上 。 不 明白 什么 意思 ? 当然 。 下 面 以 我 们 见 过 的 
最 简单 的 装饰 器 为 例 说 明 : 示例 7-22 中 的 register. 


示例 7-22 示例 7-2 中 registration.py 模块 的 删 减 版 ， 这 里 再 次 给 出 是 为 了 便于 讲解 























registry = [] 


def register(func): 
print('running register(%s)' % func) 
registry. append(func) 
return func 


@register 
def f1(): 
print( running f1()') 


print('running main()') 
print('registry ->', registry) 
f1() 








7.10.1 ”一 个 参数 化 的 注册 装饰 喜 


为 了 便于 启用 或 禁用 register 执行 的 函数 注册 功能 ， 我 们 为 它 提 供 一 个 可 选 的 active 
参数 ， 设 为 False 时， 不 注册 被 装饰 的 函数 。 实 现 方式 参见 示例 7-23。 从 概念 上 看 ， 这 
个 新 的 register 函数 不 是 装饰 器 ， 而 是 装饰 器 工厂 函数 。 调 用 它 会 返回 真正 的 装饰 器 ， 
这 才 是 应 用 到 目标 函数 上 的 装饰 器 。 


示例 7-23 ”为 了 接受 参数 ， 新 的 register 装饰 器 必须 作为 函数 调用 


























registry = set() © 
def register(active=True): @ 
def decorate(func): © 
print('running register(active=%s) ->decorate(%s) ' 
% (active, func)) 
if active: 


registry.add(func) 
else: 
registry.discard(func) © 


return func © 
return decorate @ 


@register(active=False) © 
def f1(): 
print('running f1()') 





@register() © 
def £2(): 
print('running f2()') 


def £3(): 
print('running £3()') 








O registry 现在 是 一 个 set 对 象 ， 这 样 添加 和 删除 函数 的 速度 更 快 。 

四 register 接受 一 个 可 选 的 关键 字 参 数 。 

© decorate 这 个 内 部 函数 是 真正 的 装饰 器 ; 注意 ， 它 的 参数 是 一 个 函数 。 
O 只 有 active 参数 的 值 〈 从 闭 包 中 获取 ) 是 True 时 才 注册 func. 

O 如 果 active 不 为 真 ， 而 且 func 在 registry 中 ， 那 么 把 它 删除 。 

@ decorate 是 装饰 器 ， 必 须 返 回 一 个 函数 。 

@ register 是 装饰 器 工厂 函数 ， 因 此 返回 decorate. 

@@register 工厂 函数 必须 作为 函数 调用 ， 并 且 传 入 所 希 的 参数 。 


O 即使 不 传 入 参数 ，register 也 必须 作为 函数 调用 (@register()) ， 即 要 返回 真正 的 
装饰 器 decorate。 


这 里 的 关键 是 ，register() 要 返回 decorate， 然 后 把 它 应 用 到 被 装饰 的 函数 上 。 
示例 7-23 中 的 代码 在 registration param.py 模块 中 。 如 果 导 入 ， 得 到 的 结果 如 下 : 















































>>> import registration_param 

running register(active=False) ->decorate(<function f1 at @x10@63c1e@>) 
running register(active=True) ->decorate(<function f2 at @x10063c268>) 
>>> registration_param.registry 

{<function f2 at @x10063c268>} 








YER, RA f2 函数 在 registry P; f1 不 在 其 中 ， 因 为 传 给 register 装饰 器 工厂 函数 
的 参数 是 active=False， 所 以 应 用 到 f1 上 的 decorate 没有 把 它 添加 到 registry 
中 。 


如 果 不 使 用 @ 句法， 那 承 要 像 常规 函数 那样 使 用 register; 知 想 把 和 添加 到 registry 
中 ， 则 装饰 f 函数 的 句法 是 register()(F); MERI REER) 的 话 ， 句 法 是 
register(active=False)(f)。 示 例 7-24 演示 了 如 何 把 函数 添加 到 registry 中 ， 以 及 
如 何 从 中 删除 函数 。 


示例 7-24 使 用 示例 7-23 中 的 registration_param 模块 


>>> from registration param import * 
running register(active=False)->decorate(<function f1 at @x10073c1e@>) 





























running register(active=True) ->decorate(<function f2 at @x10073c268>) 
>>> registry # © 

{<function f2 at @x10073c268>} 

>>> register()(f3) #@ 

running register(active=True) ->decorate(<function f3 at @x10073c158>) 
<function f3 at 0x10073c158> 

>>> registry # © 

{<function f3 at @x10073c158>, <function f2 at 0x10073c268>} 

>>> register(active=False)(f2) #@ 

running register(active=False) ->decorate(<function f2 at @x10073c268>) 
<function f2 at @x10073c268> 

>>> registry # O 

{<function f3 at @x10073c158>} 








@ 导入 这 个 模块 时 ，f2 在 registry 中 。 

四 register() 表达 式 返回 decorate， 然 后 把 它 应 用 到 f3 上 。 
© 前 一 行 把 f3 添加 到 registry 中 。 

O 这 次 调用 从 registry 中 删除 f2. 

@ 确认 registry PRA f3。 


参数 化 装饰 器 的 原理 相当 复杂 ， 我 们 刚刚 讨论 的 那个 比 大 多 数 都 简单 。 参 数 化 装饰 器 通常 
会 把 被 效 饰 的 函数 蔡 换 掉 ， 而 且 结 构 上 需要 多 一 层 局 套 。 接 下 来 会 探讨 这 种 函数 金字 塔 。 


7.10.2 ”参数 化 clock 装 饰 器 


本 节 再 次 探讨 clock 装饰 器 ， 为 它 添加 一 个 功能 :让 用 户 传 入 一 个 格式 字符 串 ， 控 制 被 
装饰 函数 的 输出 。 参 见 示例 7-25。 












































` 为 了 简单 起 见 ， 示 例 7-25 基于 示例 7-15 中 最 初 实现 的 clock， 而 不 是 示例 7- 
17 中 使 用 @functools .wraps 改进 后 的 版 本 ， 因 为 那 一 版 增加 了 一 层 函 数 。 





示例 7-25 clockdeco_param.py 模块 : 参数 化 clock 装饰 器 





import time 


DEFAULT_FMT = '‘[{elapsed:0.8f}s] {name}({args}) -> {result}' 


def clock(fmt=DEFAULT_FMT): © 
def decorate(func): 
def clocked(*_args): © 

to = time.time() 
_result = func(*_args) @ 
elapsed = time.time() - to 
name = func. name _ 
args = ', '.join(repr(arg) for arg in _args) © 





result = repr(_result) © 
print(fmt.format(**locals())) @ 
return result © 
return clocked © 
return decorate @ 


if _name == '_main_': 
@clock() 
def snooze(seconds): 


time.sleep(seconds) 


for i in range(3): 
snooze(.123) 








O clock 是 参数 化 装饰 器 工厂 函数 。 

© decorate 是 真正 的 装饰 器 。 

© clocked 包装 被 装饰 的 函数 。 

@ result 是 被 装饰 的 函数 返回 的 真正 结果 。 

@ _args 是 clocked 的 参数 ，args 是 用 于 显示 的 字符 
@ result 是 _result 的 字符 串 表 示 形 式 ， 用 于 显示 。 
@ 这 里 使 用 **1locals() 是 为 了 在 fmt 中 引用 clocked 的 局 部 变量 。 
© clocked 会 取代 被 装饰 的 函数 ， 因 此 它 应 该 返回 被 装饰 的 函数 返回 的 值 。 


© decorate 返回 clocked. 
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@ clock 返回 decorate. 





O 在 这 个 模块 中 测试 ， 不 传 入 参数 调用 clock()， 因 此 应 用 的 装饰 器 使 用 默认 的 格式 


str. 





在 shell 中 运行 示例 7-25， 会 得 到 下 述 结果 : 





$ python3 clockdeco param.py 

[8.12412566s] snooze(@.123) -> None 
[@.12411904s] snooze(@.123) -> None 
[@.12410498s] snooze(@.123) -> None 








示例 7-26 和 示例 7-27 是 另外 两 个 模块 ， 它 们 使 用 了 clockdeco_paranm 模块 中 的 新 功 
能 ， 随 后 是 两 个 模块 输出 的 结果 。 





示例 7-26 clockdeco param demo1.py 





import time 
from clockdeco_param import clock 


@clock('{name}: {elapsed}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 








示例 7-26 的 输出 : 





$ python3 clockdeco_param_demo1.py 
snooze: @.12414693832397461s 
snooze: @.1241159439086914s 
snooze: @.12412118911743164s 








示例 7-27 clockdeco param demo2.py 


import time 
from clockdeco_param import clock 


@clock('{name}({args}) dt={elapsed:0.3f}s') 
def snooze(seconds): 
time.sleep(seconds) 


for i in range(3): 
snooze(.123) 








示例 7-27 的 输出 : 


$ python3 clockdeco param demo2.py 
snooze(@.123) dt=0.124s 


snooze(@.123) dt=0.124s 
snooze(@.123) dt=0.124s 








受 本 书 篇 幅 限 制 ， 我 们 对 装饰 器 的 探讨 到 此 结束 。 延 伸 阅 读 中 的 资料 讨论 了 构建 工业 级 装 
饰 器 的 技术 ， 尤 其 是 Graham Dumpleton 的 博客 和 wrapt 模块 。 





` Graham Dumpleton 和 Lennart Regebro〈 本 书 的 技术 审 校 之 一 ) 认为 ， 装 饰 器 最 
好 通过 实现 __cal1_ 方法 的 类 实现 ， 不 应 该 像 本 章 的 示例 那样 通过 函数 实现 。 我 同 
意 使 用 他 们 建议 的 方式 实现 非 平 凡 的 装饰 器 更 好 ， 但 是 使 用 函数 解说 这 个 语言 特性 的 
基本 思想 更 易于 理解 。 



































TAL 本 章 小 结 





本 章 介 绍 了 很 多 基础 知识 ， 虽然 学 习 之 路 崎 岂 不 平 ， 我 还 是 尽 可 能 让 路 途 平 坦 








竟 ， 我 们 已经 进入 元 编程 领域 了 。 


顺畅 。 毕 


开始 ， 我 们 先 编写 了 一 个 没有 内 部 函数 的 @register 装饰 器 ; 最 后 ， 我 们 实现 了 有 两 层 





奶 套 函数 的 参数 化 装饰 器 @clock()。 

















尽管 注册 装饰 器 在 多 数 情况 下 都 很 简单 ， 但 是 在 高 级 的 Python 框架 中 却 有 用 武之 地 。 我 
们 使 用 注册 方式 对 第 6 章 的 “策略 "模式 做 了 重 构 。 


参数 化 装饰 器 基本 上 都 涉及 至 少 两 层 远 套 函 数 ， 如 果 想 使 用 @functools .wraps 生成 装 


























饰 器 ， 为 高 级 技术 提供 更 好 的 支持 ， 舱 套 层级 可 能 还 会 更 深 ， 比 如 前 面 简要 介绍 过 的 登 放 


装饰 器 。 

















我 们 还 讨论 了 标准 库 中 functools 模块 提供 的 两 个 出 色 的 函数 装饰 器 : @Lru_cache( ) 


Fl @singledispatch. 




















若 想 真 正 理解 装饰 器 ， 需 要 区 分 导入 时 和 运行 时 ， 还 要 知道 变量 作用 域 、 








nonlocal 声明 。 掌 握 闭 包 和 nonlocal 不 仅 对 构建 装饰 器 有 帮助 ， 还 能 协助 你 在 构建 





























GUI 程序 时 面向 事件 编程 ， 或 者 使 用 回调 处 理 








异步 W/O. 





闭 包 和 新 增 的 





7.12 ”延伸 阅读 


《Python Cookbook (i 3 版 ) 中 文 版 》 (David Beazley 和 Brian K. Jones = 的 第 9 章 “ 元 
编程 ”有 几 个 诀 罕 构 建 了 基本 的 装饰 器 和 特别 复杂 的 装饰 器 。 其 中 ,，“9.6 定义 接收 
可 选 参数 的 装饰 器 ”一 节 中 的 装饰 器 可 以 作为 常规 的 装饰 器 调用 ， 也 可 以 作为 装饰 器 工厂 
函数 调用 ， 例 如 @clock 或 @clock()。 

















Graham Dumpleton 写 了 一 系列 博客 文章 

Chttps://github. sep agg naa ace len sa md) ， 深 入 剖析 了 
如 何 实现 行为 良好 的 装饰 器 ， 篇 是 “How You Implemented Your Python Decorator is 
Wrong” Chttps://github. i a etalon een dt how-you- 
implemented-your-python-decorator-is-wrong.md) 。 他 在 这 方面 的 深厚 知识 充分 体现 在 在 他 
编写 的 wrapt 模块 (http://wrapt.readthedocs.org/en/latest/〉 中 。 这 个 模块 的 作用 是 简化 装 
饰 器 和 动态 函数 包装 器 的 实现 ， 即 使 多 层 装饰 也 文 持 内 省 ， 而 且 行 为 正确 ， 既 可 以 应 用 到 
方法 上 ， 也 可 以 作为 描述 符 使 用 。《【 描 述 符 在 本 书 第 20 章 讨 论 。) 


Michele Simionato 开发 了 一 个 包 ， 根 据 文档 ， 它 旨 在 “简化 普通 程序 员 使 用 装饰 器 的 方 
式 ， 并 且 通 过 各 种 复杂 的 示例 推广 装饰 器 ”。 这 个 包 是 
decorator (https://pypi.python.org/pypi/decorator) ， 可 通过 PyPI 安装 。 

















Python Decorator Library 维基 页 面 Chttps://wiki.python.org/moin/PythonDecoratorLibrary) 在 
Python 刚 添 加 装饰 器 这 个 特性 时 就 创建 了 ， 里 面 有 很 多 示例 。 由 于 那个 页 面 是 几 年 前 开始 
编写 的 ， 有 些 技术 已 经 过 时 了 ， 不 过 仍 是 很 棒 的 灵感 来 源 。 


PEP 443 Chttp://www.python.org/dev/peps/pep-0443/) 对 单 分 派 泛 函 数 的 基本 原理 和 细节 做 
了 说 明 。Guido van Rossum 很 久 以 前 (2005 年 3 H) 写 的 一 篇 博客 文章 “Five-Minute 
Multimethods in Python” Chttp://www.artima.com/weblogs/viewpost.jsp?thread=101605) 详细 
说 明了 如 何 使 用 装饰 器 实现 泛 函 数 〈 也 叫 多 方法 ) 。 他 给 出 的 代码 文 持 多 分 派 〈 即 根据 多 
个 定位 参数 进行 分 派 ) 。Guide 写 的 多 方法 代码 很 棒 ， 但 那 只 是 教学 示例 。 如 果 想 使 用 现 
代 的 技术 实现 多 分 派 泛 函 数 ， 并 支持 在 生产 环境 中 使 用 ， 可 以 用 Martijn Faassen 开发 的 
Reg (http://reg.readthedocs.io/en/latest/)。Martijn 还 是 模型 驱动 型 REST 式 Web 框架 
Morepath (http://morepath.readthedocs.org/en/latest/)〉 的 开发 者 。 






































Fredrik Lundh 写 的 一 篇 短文 “Closures in Python”(http://effbot.org/zone/closure.htm) 解说 了 
闭 包 这 个 术语 。 


“PEP 3104—Access to Names in Outer Scopes” (http://www.python.org/dev/peps/pep-3104/) 
说 明了 引入 nonlocal 声明 的 原因 : 重新 绑 定 既 不 在 本 地 作用 域 中 也 不 在 全 局 作用 域 中 的 
名 称 。 这 份 PEP 还 概述 了 其 他 动态 语言 (Perl、Ruby、JavaScript， 等 等 ) 解决 这 个 问题 
的 方式 ， 以 及 Python 中 可 用 设计 方案 的 优 缺 点 。 


“PEP 227 一 Statically Nested Scopes” (http://www.python.org/dev/peps/pep-0227/) 更 偏重 于 
里 论 ， 说 明了 Python 2.1 引入 的 词法 作用 域 。 词法 作用 域 在 这 一 版 里 是 一 种 方案 ， 到 
nig .2 就 变 成 了 标准 。 此 外 ， 这 份 PEP 还 说 明了 Python 中 闭 包 的 基本 原理 和 实现 方式 
的 选择 


























ez: 




















杂谈 


任何 把 函数 当 作 一 等 对 象 的 语言 ， 它 的 设计 者 都 要 面 对 一 个 问题 : 作为 一 等 对 象 的 函 
数 在 茶 个 作用 域 中 定义 ， 但 是 可 能 会 在 其 他 作用 域 中 调用 。 问 题 是 ， 如 何 计算 自由 变 
量 ? 首先 出 现 的 最 简单 的 处 理 方式 是 使 用 "动态 作用 域 "。 也 就 是 说 ， 根 据 函 数 调用 所 
在 的 环境 计算 自由 变量 。 


和 Python 使 用 动态 作用 域 ， 不 支持 闭 包 ， 那 么 avg〔 与 示例 7-9 类 似 ) 可 以 写成 这 
























































>>> ### 这 不 是 真实 的 Python 控制 台 会 话 ! HH 
>>> avg = make_averager() 

>>> series = [] # © 

>>> avg(10) 

10.0 

>>> avg(11) #@ 

10.5 


>>> avg(12) 

11.0 

>>> series = [1] # © 
>>> avg(5) 

3.0 














Q 使 用 ave 之 前 要 自己 定义 series = []， 因 此 我 们 必须 知道 averager (在 
make_averager 内 部 ) 引用 的 是 一 个 列表 。 


四 在 背后 使 用 series 累计 要 计 入 平均 值 的 值 。 


© tT series = [1] 后 ， 之 前 的 列表 消失 了 。 同 时 计算 两 个 独立 的 移动 平均 值 时 
可 能 会 发 生 这 种 意外 。 


函数 应 该 是 黑 盒 ， 把 实现 隐藏 起 来 ， 不 让 用 户 知道 。 但 是 对 动态 作用 域 来 说 ， 如 果 函 
数 使 用 自由 变量 ， 程 序 员 必须 知道 函数 的 内 部 细节 ， 这 样 才能 搭建 正确 运行 所 需 的 环 
境 。 















































另 一 方面 ， 动 态 作用 域 易 于 实现 ， 这 可 能 就 是 John McCarthy 创建 Lisp〔 第 一 门 把 函 
数 视 作 一 等 对 象 的 语言 ) 时 采用 这 种 方式 的 原因 。Paul Graham 写 的 “The Roots of 
Lisp? — X 《http://www.paulgraham.com/rootsoflisp.html〉 对 John McCarthy 关于 Lisp 语 
言 那 篇 论文 (“Recursive Functions of Symbolic Expressions and Their Computation by 
Machine, Part P’, http://www-formal.stanford.edw/jmc/recursive/recursive.html) 做 了 通俗 
易 懂 的 解说 。McCarthy AS fa VO SC AL AL UL 2S Sy LC Mle HH PEKIN VE. Paul 
ea 使 用 通俗 易 懂 的 语言 翻译 了 那 篇 论文 ， 把 数学 原理 转换 成 了 英语 和 可 运行 的 
尺码 。 


Paul Graham 的 注解 还 指出 动态 作用 域 难以 实现 。 下 面 这 段 文字 引 自 “The Roots of 
Lisp” 一 文 : 

就 连 第 一 个 Lisp 高 阶 函 数 示例 都 因为 动态 作用 域 而 无 法 运行 ， 这 充分 证 明了 动 
态 作用 域 的 危险 性 。McCarthy 在 1960 年 可 能 没有 全 面 认识 到 动态 作用 域 的 影 






































响 。 动 态 作 用 域 在 各 种 Lisp 实现 中 存在 的 时 间 特 别 长 ， 直 到 Sussman 和 Steele 
在 1975 年 开发 出 Scheme 为 止 。 词 法 作用 域 不 会 把 eval 的 定义 变 得 多 么 复杂 ， 
只 是 编译 器 可 能 更 难 编写 。 


如 今 ， 词 法 作用 域 已 成 常态 ， 根据 定义 函数 的 环境 计算 自由 变量 。 词 法 作用 域 让 人 更 
难 实现 支持 一 等 函数 的 语言 ， 因 为 需要 支持 闭 包 。 不 过 ， 词 法 作用 域 让 代码 更 易于 阅 
读 。Algol 之 后 出 现 的 语言 大 都 使 用 词法 作用 域 。 


多 年 来 ，Python 的 lambda 表达 式 不 支持 闭 包 ， 因 此 在 博客 圈 的 函数 式 编程 极 客 群 体 
中 ， 这 个 特性 的 名 声 并 不 好 。Python 2.2 (2001 年 12 月 发 布 ) 修正 了 这 个 问题 ， 但 是 
博客 圈 的 固有 印象 不 会 轻易 转变 。 自 此 之 后 ， 仪 仅 由 于 句法 上 的 局 限 ，1lambda 一 直 
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Python 装饰 器 和 装饰 器 设计 模式 


Python 函数 装饰 器 符合 Gamma 等 人 在 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 
书 中 对 “装饰 器 ”模式 的 一 般 描 述 : “动态 地 给 一 个 对 象 添加 一 些 额外 的 职责 。 就 扩展 
功能 而 言 ， 装 饰 器 模式 比 子 类 化 更 灵活 。” 


在 实现 层面 ，Python 装饰 器 与 “装饰 器 "设计 模式 不 同 ， 但 是 有 些 相似 之 处 。 


在 设计 模式 中 ，Decorator 和 Component 是 抽象 类 。 为 了 给 具体 组 件 添加 行为 ， 具 
ee eee 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 
一 书 是 这 样 说 的 : 


装饰 器 与 它 所 装饰 的 组 件 接口 一 致 ， 因 此 它 对 使 用 该 组 件 的 客户 透明 。 它 将 客户 
请 求 转 发 给 该 组 件 ， 并 且 可 能 在 转发 前 后 执行 一 些 额外 的 操作 “〈 例 如 绘制 一 个 边 
框 ) 。 i 以 递归 髓 套 多 个 装饰 器 ， 从 而 可 以 添加 任意 多 的 功能 。 
(第 115 页 ) 


在 Python 中 ， 装 饰 器 函数 相当 于 Decorator 的 具体 子 类 ， 而 装饰 器 返回 的 内 部 函数 
相当 于 装饰 器 实例 。 返 回 的 函数 包装 了 被 疼 饰 的 函数 ， 这 相当 于 “装饰 器 "设计 模式 中 
的 组 件 。 返 回 的 函数 是 透明 的 ， 因 为 它 接受 相同 的 参数 ， 符 合 组 件 的 接口 。 返 回 的 函 
数 把 调用 转发 给 组 件 ， 可 以 在 转发 前 后 执行 额外 的 操作 。 因 此 ， 前 面 引用 那 段 话 的 最 
后 一 句 可 以 改 成 :“ 透 明 性 使 得 你 可 以 递归 嵌 套 多 个 装饰 器 ， 从 而 可 以 添加 任意 多 的 
行为 。” 这 就 是 合 放 装饰 器 的 理论 基础 。 


注意 ， 我 不 是 建议 在 Python 程序 中 使 用 函数 装饰 器 实现 “装饰 器 ”模式 。 在 特定 情况 
人 但 是 一 般 来 次 ， 实 现 “装饰 器 ”模式 时 最 好 使 用 类 表示 装饰 器 和 要 
装 的 组 件 ， 
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第 四 部 分 EAX Ba tht HA 


第 8 章 对象 引用 、 可 变性 和 垃圾 回收 


“你 不 开心 ，” 白 骑士 用 一 种 忧虑 的 声调 说 , “让 我 给 你 唱 一 首 歌 安慰 你 吧 ..….... 这 首 歌 
的 曲名 叫 作 :《 黑 线 鲁 的 眼睛 》。” 


“ 哦 ， 那 是 一 首 歌 的 曲名 ， 是 吗 ? ”爱丽 丝 问 道 ， 她 试 着 使 自己 感到 有 兴趣 。 


“不 ， 你 不 明白 ，” 白 骑士 说 ， 看 来 有 些 心烦 的 样子 ,“ 那 是 人 家 这 么 叫 的 曲名 。 真 正 
的 曲名 是 《 老 而 又 老 的 老头 儿 》。” (改编 自 第 8 章 “ 这 是 我 自己 的 发 明 ”) 

—Lewis Carroll 

《爱丽 丝 镜 中 奇遇 记 》 


丽 丝 和 白 骑 士 为 本 章 要 讨论 的 内 容 定 了 基调 。 本 章 的 主题 是 对 象 与 对 象 名 称 之 间 的 区 
a 名 称 不 是 对 象 ， 而 是 单独 的 东西 。 


本 章 先 以 一 个 比喻 说 明 Python 的 变量 : 变量 是 标注 ， 而 不 是 盒子 。 如 果 你 不 知道 引用 式 
变量 是 什么 ， 可 以 像 这 样 对 别人 解释 别名 。 


然后 ， 本 章 讨论 对 象 标识 、 值 和 别名 等 概念 。 随 后 ， 本 章 会 揭露 元 组 的 一 个 神奇 特性 : 

组 是 不 可 变 的 ， 但 是 其 中 的 值 可 以 改变 ， 之 后 就 引申 到 浅 复制 和 深 复 制 。 接 下 来 的 话题 是 
pe ere reer 0 yee oe 
JH RB BM 


eae 节 讨 论坛 圾 回收 、del 命令 ， 以 及 如 何 使 用 弱 引 用 “ 记 住 对象， 而 无 需 对 象 本 
子 仕 


E ees 题 却 是 解决 Python 程序 中 很 多 不 易 察觉 的 bug 的 关 






































































































































首先 ， 我 们 要 抛弃 变量 是 存储 数据 的 盒子 这 一 错误 观念 。 








81 ”变量 不 是 盒子 


1997 年 夏天 ， 我 在 MIT 学 了 一 门 Java 课程 。Lynn Andrea Stein 教授 (一 位 获奖 的 计算 机 
科学 教育 工作 者 ， 目 前 在 欧 林 工程 学 院 教书 ) 指出 ， 人 们 经 常 使 用 "变量 是 盒子 "这 样 的 比 
喻 ， 但 是 这 有 碍 于 理解 面向 对 象 语言 中 的 引用 式 变量 。Python 变量 类 似 于 Java 中 的 引用 
式 变量 ， 因 此 最 好 把 它们 理解 为 附加 在 对 象 上 的 标注 。 


在 示例 8-1 所 示 的 交互 式 控制 台中 ， 无 法 使 用 “变量 是 盒子 ”做 解释 。 图 8-1 说 明了 在 
Python 中 为 什么 不 能 使 用 盒子 比喻 ， 而 便利 贴 则 指出 了 变量 的 正确 工作 方式 。 


示例 8-1 变量 a 和 b 引用 同一 个 列表 ， 而 不 是 那个 列表 的 副本 





























>>> a = [1, 2, 3] 
>>> b=a 
>>> a.append(4) 








8-1: 如 果 把 变量 想象 为 例子， 那么 无 法 解释 Python 中 的 赋值 ; 应 该 把 变量 视 作 便 
利 贴 ， 这 样 示例 8-1 中 的 行为 就 好 解释 了 

Stein 教授 还 反复 讲解 了 赋值 方式 。 例 如 讲 到 seesaw 对 象 时 ， 她 会 说 “把 变量 分 配给 
seesaw”， 绝 不 会 说 “把 seesaw 分 配给 变量 %”。 对 引用 式 变量 来 说 ， 说 把 变量 分 配给 对 象 
see 反 过 来 说 就 有 问题 。 毕 竟 ， 对 象 在 赋值 之 前 就 创建 了 。 示 例 8-2 证 明 赋 值 语 句 的 
右边 先 执行 。 


示例 8-2 创建 对 象 之 后 才 会 把 变量 分 配给 对 象 

















>>> class Gizmo: 
def _ init__(self): 
print('Gizmo id: %d' % id(self)) 


>>> x = Gizmo() 

Gizmo id: 4301489152 @ 
>>> y = Gizmo() * 10 @ 
Gizmo id: 4301489432 © 





Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for *: 'Gizmo' and ‘int' 


>>> 

>> dir() @ 

['Gizmo', '__builtins__', ' doc ', '__loader__', '__name_', 
__ package __', ' spec ', 'x'] 











@ 输出 的 Gizmo id: ... 是 创建 Gizmo 实例 的 副作用 。 
O 在 乘法 运算 中 使 用 Gizmo 实例 会 抛 出 异常 。 
O 这 里 表明 ， 在 尝试 求 积 之 前 其 实 会 创建 一 个 新 的 Gizmo 实例 。 

四 但是， 肯定 不 会 创建 变量 y， 因 为 在 对 赋值 语句 的 右边 进行 求 值 时 抛 出 了 异常 。 









































% 为 了 理解 Python 中 的 赋值 语句 ， 应 该 始终 先 读 右 边 。 对 象 在 右边 创建 或 获取 ， 
在 此 之 后 左边 的 变量 才 会 绑 定 到 对 象 上 ， 这 就 像 为 对 象 贴 上 标注 。 忘 掉 盒 子 吧 ! 
因为 变量 只 不 过 是 标注 ， 所 以 无 法 阻止 为 对 象 贴 上 多 个 标注 。 贴 的 多 个 标注 ， 就 是 别 

名 。 参 见 下 一 市 。 




















8.2 标识、 相等 性 和 别名 


Lewis Carroll 是 Charles Lutwidge Dodgson 教授 的 笔名 。Carroll 先生 指 的 就 是 Dodgson 教 
授 ， 二 者 是 同一 个 人 。 示 例 8-3 用 Python 表达 了 这 个 概念 。 


示例 8-3 charles 和 lewis 指 代 同一 个 对 象 


>>> charles = {'name': 'Charles L. Dodgson', ‘born’: 1832} 
>>> lewis = charles © 

>>> lewis is charles 

True 

>>> id(charles), id(lewis) @ 

(4300473992, 4300473992) 

>>> lewis['balance'] = 950 © 

>>> charles 

{'name': 'Charles L. Dodgson’, ‘balance’: 950, ‘born': 1832} 








@ lewis 是 charles 的 别名 。 
© is 运算 符 和 id 函数 确认 了 这 一 点 。 
Q 向 lewis 中 添加 一 个 元 素 相 当 于 向 charles 中 添加 一 个 元 素 。 


然而 ， 假 如 有 冒充 者 〈 姑 且 叫 他 Alexander Pedachenko 博士 ) 生 于 1832 年 ， 声 称 他 是 
Charles L. Dodgson。 这 个 冒充 者 的 证 件 可 能 一 样 ， 但 是 Pedachenko 博士 不 是 Dodgson 教 
授 。 这 种 情况 如 图 8-2 所 示 。 























8-2: charles 和 lewis 绑 定 同一 个 对 象 ，alex 绑 定 另 一 个 具有 相同 内 容 的 对 象 
示例 8-4 实现 并 测试 了 图 8-2 中 那个 alex 对 象 。 


示例 8-4 alex 5 charles 比较 的 结果 是 相等 ， 但 alex 不 是 charles 








>>> alex = {'name': 'Charles L. Dodgson', 'born': 1832, 'balance': 950} © 
>>> alex == charles @ 

True 

>>> alex is not charles © 


| True 





Q alex 指 代 的 对 象 与 赋值 给 charles 的 对 象 内 容 一 样 。 
O 比较 两 个 对 象 ， 结 果 相 等 ， 这 是 因为 dict 类 的 ”eq ”方法 就 是 这 样 实现 的 。 
O 但 它们 是 不 同 的 对 象 。 这 是 Python 说 明 标 识 不 同 的 方式 : a is not b. 


示例 8-3 体现 了 别名 。 在 那 段 代 码 中 ，lewis 和 charles 是 别名 ， 即 两 个 变量 绑 定 同一 
个 对 象 。 而 alex A charles 的 别名 ， 因 为 二 者 绑 定 的 是 不 同 的 对 象 。alex 和 
charles 绑 定 的 对 象 具 有 相同 的 值 (== 比较 的 就 是 值 ) ， 但 是 它们 的 标识 不 同 。 


Python 语言 参考 手册 中 的 “3.1 Objects, values and types” 一 节 
(https://docs.python.org/3/reference/datamodel.html#objects-values-and-types ) 说 道 : 


每 个 变量 都 有 标识 、 类 型 和 值 。 对 象 一 旦 创建 ， 它 的 标识 绝 不 会 变 ; 你 可 以 把 标识 理 
内 存 中 的 地 址 。is 运算 符 比较 两 个 对 象 的 标识 ，id0 函数 返回 对 象 标 识 的 
ZR 


对 象 ID 的 真正 意义 在 不 同 的 实现 中 有 所 不 同 。 在 CPython 中 ，id() 返回 对 象 的 内 存 地 
址 ， 但 是 在 其 他 Python 解释 器 中 可 能 是 别 的 值 。 关 键 是 ，ID 一定 是 唯一 的 数值 标注 ， 而 
且 在 对 象 的 生命 周期 中 绝 不 会 变 。 


其 实 ， 编 程 中 很 少 使 用 id() 函数 。 标 识 最 常 使 用 is 运算 符 检 查 ， 而 不 是 直接 比较 ID. 
接 下 来 讨论 is 和 == 的 异同 。 



























































8.2.1 在 == 和 is 之 间 选 择 
== 运算 符 比较 两 个 对 象 的 值 (对 象 中 保存 的 数据 ) ， 而 is 比较 对 象 的 标识 。 
通常 ， 我 们 关注 的 是 值 ， 而 不 是 标识 ， 因 此 Python 代码 中 == 出 现 的 频率 比 is 高 。 


通 
然而 ， 在 变量 和 单 例 值 之 间 比 较 时 ， 应 该 使 用 is。 目 前 ， 最 常 使 用 is 检查 变量 绑 定 的 值 
是 不 是 None。 下 面 是 推荐 的 写法 : 

















x is None 














否定 的 正确 写法 


并 








x is not None 











is 运算 符 比 == 速度 快 ， 因 为 它 不 能 重 载 ， 所 以 Python 不 用 寻找 并 调用 特殊 方法 ， 而 是 
直接 比较 两 个 整数 中。 而 a == b 是 语法 糖 ， 等 同 于 a. eq (b)。 继 承 自 object 的 
_ eq “方法 比较 两 个 对 象 的 ID， 结果 与 is 一样。 但 是 多 数 内 置 类 型 使 用 更 有 意义 的 方 
Weil eq 方法 ， 会 考虑 对 象 属性 的 值 。 相 等 性 测试 可 能 涉及 大 量 处 理工 作 ， 例 









































UN, PORK ASE BR KIER BR 2a IY o 


在 结束 对 标识 和 相等 性 的 讨论 之 前 ， 我 们 来 看 看 著名 的 不 可 变 类 型 tuple (元 组 ) , Ci 
有 你 想象 的 那么 一 成 不 变 。 


8.2.2 ”元 组 的 相对 不 可 变性 


元 组 与 多 数 Python 集合 〈 列 表 、 字 典 、 集 ， 等 等 ) 一 样 ， 保 存 的 是 对 象 的 引用 。! 如 果 引 
用 的 元 素 是 可 变 的， 即便 元 组 本 身 不 可 变 ， 元 素 依然 可 变 。 也 就 是 说 ， 元 组 的 不 可 变性 其 
实 是 指 tuple 数据 结构 的 物理 内 容 《“ 即 保存 的 引用 ) 不 可 变 ， 与 引用 的 对 象 无 关 。 







































































1 而 str, bytes 和 array.array 等 单一 类 型 序列 是 扁平 的 ， 它 们 保存 的 不 是 引用 ， 而 是 在 连续 的 内 存 中 保存 数据 本 
身 〈 字 符 、 字 节 和 数字 ) 。 












































示例 8-5 表明 ， 元 组 的 值 会 随 着 引用 的 可 变 对 象 的 变化 而 变 。 元 组 中 不 可 变 的 是 元 素 的 标 


识 。 


示例 8-5 一 开始 ，t1 和 t2 相等 ， 但 是 修改 tl 中 的 一 个 可 变 元 素 后 ， 二 者 不 相等 
了 








>>> t1 = (1，2，[36，46]) © 
>>> t2 = (1, 2, [30, 40]) @ 
>>> t1 == t2 

True 

>>> id(t1[-1]) @ 

4302515784 

>>> ti[-1].append(99) © 

>>> 七 1 

(1, 2, [30, 40, 99]) 

>>> id(t1[-1]) QO 

4302515784 

>> tl == t2 Q 

False 








@ tl 不 可 变 ， 但 是 t1[-1] 可 变 。 

四 构建 元 组 t2， 它 的 元 素 与 tl 一 样 。 

© 虽然 tl 和 t2 是 不 同 的 对 象 ， 但 是 二 者 相等 一 一 与 预期 相符 。 
O #4 t1[-1] 列表 的 标识 。 

O 就 地 修改 t1[-1] WR. 

@ t1[-1] 的 标识 没 变 ， 只 是 值 变 了 。 

@ 现在 ，t1 和 tt2 不 相等 。 


元 组 的 相对 不 可 变性 解释 了 2.6.1 节 的 谜 题 。 这 也 是 有 些 元 组 不 可 散 列 《参见 3.1 节 中 
的 “什么 是 可 散 列 的 数据 类 型 "附注 栏 ) 的 原因 。 


























复制 对 象 时 ， 相 等 性 和 标识 之 间 的 区 别 有 更 深入 的 影响 。 








同 。 可 是 ， 如 果 对 象 中 包含 其 他 对 象 ， 那 么 应 该 复 














副本 与 源 对 象 相等 ， 但 是 ID 不 











内 部 对 象 吗 ? 可 以 性 





这 些 问题 没有 唯一 的 答案 。 参 见 下 述 讨论 。 





t 享 内 部 对 象 吗 ? 


8.3 ”默认 做 浅 复 制 


复制 列表 〈 或 多 数 内 置 的 可 变 集合 ) 最 简单 的 方式 是 使 用 内 置 的 类 型 构造 方法 。 例 如 ; 








>>> 11 = [3, [55, 44], (7, 8, 9)] 
>>> 12 = list(11) © 

>>> 12 

[3, [55, 44], (7, 8, 9)] 

>> 12 = 11 @ 

True 

>> 12 is 11 © 

False 











Q list(11) 创建 11 的 副本 。 
O 副本 与 源 列表 相等 。 


O 但 是 二 者 指 代 不 同 的 对 象 。 对 列表 和 其 他 可 变 序列 来 说 ， 还 能 使 用 简洁 的 12 = 11[:] 
语句 创建 副本 。 


然而 ， 构 造 方法 或 [:] 做 的 是 浅 复 制 ( 即 复制 了 最 外 层 容 器 ， 副 本 中 的 元 素 是 源 容器 中 
元 素 的 引用 ) 。 如 果 所 有 元 素 都 是 不 可 变 的 ， 那 么 这 样 没有 问题 ， 还 能 节省 内 存 。 但 是 ， 
如 果 有 可 变 的 元 素 ， 可 能 就 会 导致 意 想 不 到 的 问题 。 


在 示例 8-6 中 ， 我 们 为 个 列表 和 一 个 元 组 的 列表 做 了 浅 复制 ， 然 后 做 了 些 修 
改 ， 看 看 对 引用 的 对 象 有 什么 影响 



















































































AI 如 果 你 手头 有 联网 的 电脑 ， 我 强烈 建议 你 在 Python Tutor 网 站 
Chttp://www.pythontutor.com) 中 查看 示例 8-6 的 交互 式 动画 。 写 作 本 书 时 ， 无 法 直接 
e i com 中 准备 好 的 示例 ， 不 过 这 个 工具 很 出 色 ， 因 此 值得 花 点 时 间 复 制 
秸 贴 代码 














示例 8-6 “为 一 个 包含 另 一 个 列表 的 列表 做 浅 复 制 ， 把 这 段 代 码 复制 粘贴 到 Python 
Tutor 网 站 中 ， 看 看 动画 效果 











11 = [3, [66, 55, 44], (7, 8, 9)] 
12 = list(11) #0 
11.append(166) #0 
11[1].remove(55) # © 


print('11:', 11) 
print('12:', 12) 
12[1] += [33, 22] # © 
12[2] += (10, 11) #6 
print('11:', 11) 
print('12:', 12) 





@ 12 是 11 的 浅 复制 副本 。 此 时 的 状态 如 图 8-3 所 示 。 


Frames Objects 


Global frame list list 
1 — > 
12 





8-3: 示例 8-6 执行 12 = list(11) 赋值 后 的 程序 状态 。11 和 12 指 代 不 同 的 列 
表 ， 但 是 二 者 引用 同一 个 列表 [66, 55, 44] 和 元 组 (7，8，9) (图 表 由 Python 
Tutor 网 站 生成 ) 

四 把 100 追加 到 11 中 ， 对 12 没有 影响 。 


© 把 内 部 列表 11[1] 中 的 55 删除 。 这 对 12 有 影响 ， 因 为 12[1] 绑 定 的 列表 与 11[1] 


是 同一 个 。 


O 对 可 变 的 对 象 来 说 ， 如 12[1] 引用 的 列表 ，+= 运算 符 就 地 修改 列表 。 这 次 修改 在 
11[1] 中 也 有 体现 ， 因 为 它 是 12[1] 的 别名 。 


O 对 元 组 来 说 ，+= 运算 符 创 建 一 个 新 元 组 ， 然 后 重新 绑 定 给 变量 12[2] 。 这 等 同 于 
12[2] = 12[2] + (16，11)。 现 在 ，11 和 12 中 最 后 位 置 上 的 元 组 不 是 同一 个 对 象 。 
如 图 8-4 所 示 。 

示例 8-6 的 输出 在 示例 8-7 中 ， 对 象 的 最 终 状态 如 图 8-4 所 示 。 


示例 8-7 AN 8-6 的 输出 




















» 44], (7, 8, 9), 100] 
» 44], (7, 8, 9)] 


» 44, 33, 22], (7, 8, 9), 100] 
» 44, 33, 22], (7, 8, 9, 10, 11)] 





Frames Objects 


list 
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Global frame 
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8-4: 11 和 12 的 最 终 状 态 : 二 者 依然 引用 同一 个 列表 对 象 ， 现 在 列表 的 值 是 [66， 





44，33，22]， 不 过 12[2] += (16，11) 创建 一 个 新 元 组 ， 


内 容 是 (7，8，9，16， 


11)， 它 与 11[2] 引用 的 元 组 (7, 8, 9) HK (MAA Python Tutor 网 站 生成 ) 
现在 你 应 该 明白 了 ， 浅 复制 容易 操作 ， 但 是 得 到 的 结果 可 能 并 不 是 你 想 要 的 。 接 下 来 说 明 








如 何 做 深 复制 。 
为 任意 对 象 做 深 复制 和 浅 复制 

















浅 复制 没什么 问题 ， 但 有 时 我 们 需要 的 是 深 复制 〈 即 副本 不 专 














享 内 部 对 象 的 引 


FAD 。copy 模块 提供 的 deepcopy 和 copy 函数 能 为 任意 对 象 做 深 复制 和 浅 复 制 。 


为 了 演示 copy() 和 deepcopy() 的 用 法 ， 示 例 8-8 定义 了 一 个 简单 的 类 ，Bus。 这 个 类 

















表示 运载 乘客 的 校车 ， 在 途中 乘客 会 上 车 或 下 车 。 
示例 8-8 校车 乘客 在 途中 上 车 和 下 车 





class Bus: 


def _ init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] 
else: 
self.passengers = list(passengers) 


def pick(self, name): 
self .passengers.append(name) 


def drop(self, name): 
self.passengers.remove(name) 








接 下 来 ， 在 示例 8-9 中 的 交互 式 控 制 台 中 ， 我 们 将 创建 一 个 B 


us 实例 (bus1) 和 两 个 副 





本 ， 一 个 是 浅 复 制 副 本 Cbus2) ， 男 一 个 是 深 复制 副本 (bus3) ， 看 看 在 bus1 有 学 生 
下 车 后 会 发 生 什么 。 


示例 8-9 使 用 copy 和 deepcopy 产生 的 影响 








>>> import copy 

>>> bus1 = Bus(['Alice', 'Bill', 'Claire', 'David']) 
>>> bus2 = copy.copy(bus1) 

>>> bus3 = copy.deepcopy(bus1) 

>>> id(bus1), id(bus2), id(bus3) 

(4301498296, 4301499416, 4301499752) © 

>>> bus1.drop('Bill') 

>>> bus2.passengers 

['Alice', 'Claire', 'David'] ð 

>>> id(bus1.passengers), id(bus2.passengers), id(bus3.passengers) 
(4302658568, 4302658568, 4302657800) © 

>>> bus3.passengers 

['Alice', 'Bill', 'Claire', 'David'] © 











@ 使 用 copy 和 deepcopy, AE 3 个 不 同 的 Bus 实例 。 
© bus1 中 的 'Bill' 下 车 后 ，bus2 中 也 没有 他 了 。 


© 审查 passengers 属性 后 发 现 ，bus1 和 bus2 共享 同一 个 列表 对 象 ， 因 为 bus2 是 
bust 的 浅 复制 副本 。 


O bus3 是 bus1 的 深 复制 副本 ， 因 此 它 的 passengers 属性 指 代 另 一 个 列表 。 

注意 ， 一 般 来 说 ， 深 复制 不 是 件 简单 的 事 。 如 果 对 象 有 循环 引用 ， 那 么 这 个 朴素 的 算法 会 
进入 无 限 循 环 。deepcopy 函数 会 记 住 已 经 复制 的 对 象 ， 因 此 能 优雅 地 处 理 循环 引用 ， 如 
示例 8-10 所 示 。 


示例 8-10 循环 引用 : b 引用 a， 然 后 妃 加 到 a 中 ; deepcopy 会 想 办 法 复制 a 
























































>>> a = [10, 20] 

>>> b = [a, 30] 

>>> a.append(b) 

>>> a 

[10, 20, [[...], 30]] 

>>> from copy import deepcopy 
>>> c = deepcopy(a) 

>>> C 

[10, 20, [[...], 30]] 














此 外 ， 深 复制 有 时 可 能 太 深 了 。 人 例如， 对象 可 能 会 引用 不 该 复制 的 外 部 资源 或 单 例 值 。 我 
们 可 以 实现 特殊 方法 _ copy__() 和 ”deepcopy ()， 控制 copy 和 deepcopy 的 行 
为 ， 详 情 参 见 copy 模块 的 文档 Chttp://docs.python.org/3/library/copy.html) 。 


通过 别名 共享 对 象 还 能 解释 Python 中 传递 参数 的 方式 ， 以 及 使 用 可 变 类 型 作为 参数 默认 
值 引 起 的 问题 。 接 下 来 讨论 这 些 问题 。 

















8.4 函数 的 参数 作为 引用 时 


Python 唯一 文 持 的 参数 传递 模式 是 共享 传 参 〈call by sharing) 。 多 数 面 向 对 象 语言 都 采用 


这 一 模式 ， 包 括 Ruby, Smalltalk 和 Java (Java 的 引用 类 型 是 这 样 ， 基 本 类 型 按 值 伟 
参 ) 。 


共 至 传 参 指 函 数 的 各 个 形式 参数 获 条 得 实 参 中 各 个 引用 的 副本 。 也 就 是 说 ， 函 数 内 部 的 形 参 
是 实 参 的 别名 。 


这 种 方案 的 结果 是 ， 函 数 可 能 会 修改 作为 参数 传 入 的 可 变 对 象 ， 但 是 无 法 修改 那些 对 象 的 

标识 ( 即 不 外 Sr 个 对 象 ) 。 示 例 8-11 中 有 个 简单 的 函数 ， 它 在 参数 

a 别 把 数字 、 列 表 和 元 组 传 给 那个 函数 ， 实 际 传 入 的 实 参 会 以 不 同 的 
Fy TAS Bll 


示例 8-11 函数 可 能 会 修改 接收 到 的 任何 可 变 对 象 












































>>> def f(a, b): 
。 a += b 
return a 
>>> x=1 
>>> y = 2 
>>> F(x, y) 
3 


>> x, y 0 

(1, 2) 

>>> a = [1, 2] 

>>> b = [3, 4] 

>>> F(a, b) 

[1, 2, 3, 4] 

>> a,b @ 

([1, 2, 3, 4], [3, 4]) 
>>> t = (10, 20) 

>>> u = (30, 40) 

>>> f(t, u) 

(10, 20, 30, 40) 

>> t, uO 

((10, 20), (30, 40)) 


@ 数字 x 没 变 。 
四 列表 a 变 了 。 
O 元 组 t 没 变 。 
与 函数 参数 相关 的 另 一 个 问题 是 使 用 可 变 值 作 为 默认 值 ， 下 一 节 会 讨论 。 


8.4.1 不 要 使 用 可 变 类 型 作为 参数 的 默认 值 




















可 选 参数 可 以 有 默认 值 ， 这 是 Python 函数 定义 的 一 个 很 棒 的 特性 ， 这 样 我 们 的 API 在 进 
化 的 同时 能 保证 向 后 兼容 。 然 而 ， 我 们 应 该 避免 使 用 可 变 的 对 象 作为 参数 的 默认 值 。 
下 面 在 示例 8-12 中 说 明 这 个 问题 。 我 们 以 示例 8-8 中 的 Bus 类 为 基础 定义 一 个 新 类 ， 
HauntedBus， 然 后 修改 ”init _ 方法 。 这 一 次 ，passengers 的 默认 值 不 是 None， 而 
是 []， 这 样 就 不 用 像 之 前 那样 使 用 if 判断 了 。 这 个 “聪明 的 举动 "会 让 我 们 陷入 麻烦 。 


示例 8-12 一 个 简单 的 类 ， 说 明 可 变 默 认 值 的 危险 
























































class HauntedBus: 


""" 备 受 幽 灵 乘 客 折磨 的 校车 """ 





def _init (self, passengers=[]): © 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) © 


def drop(self, name): 
self.passengers.remove(name) 














@ 如 果 没 传 入 passengers 参数 ， 使 用 默认 绑 定 的 列表 对 象 ， 一 开始 是 空 列 表 。 


© 这 个 赋值 语句 把 self.passengers 变 成 passengers 的 别名 ， 而 没有 传 入 
passengers 参数 时 ， 后 者 又 是 默认 列表 的 别名 。 


© £ self.passengers 上 调用 .remove() 和 .append() 方法 时 ， 修 改 的 其 实 是 默认 列 
表 ， 它 是 函数 对 象 的 一 个 属性 。 


HauntedBus 的 诡异 行为 如 示例 8-13 所 示 。 


示例 8-13 备 受 幽 灵 乘 客 折磨 的 校车 


























>>> bus1 = HauntedBus(['Alice', 'Bill']) 
>>> bus1.passengers 

['Alice', 'Bill'] 

>>> bus1.pick('Charlie') 

>>> bus1.drop('Alice') 

>>> bus1.passengers © 

['Bill', 'Charlie'] 

>>> bus2 = HauntedBus() @ 

>>> bus2.pick('Carrie') 

>>> bus2.passengers 

['Carrie'] 

>>> bus3 = HauntedBus() © 

>>> bus3.passengers @ 

['Carrie'] 

>>> bus3.pick('Dave' ) 

>>> bus2.passengers © 

['Carrie', 'Dave'] 

>>> bus2.passengers is bus3.passengers © 
True 





>>> busil.passengers @ 
['Bill', ‘Charlie’ ] 





@ 目前 没什么 问题 ，bus1 没有 出 现 异 常 
© 一 开始 ，bus2 是 空 的 ， 因 此 把 默认 的 空 列表 赋值 给 self.passengers。 
© bus3 一 开始 也 是 空 的 ， 因 此 还 是 赋值 默认 的 列表 。 

O 但 是 默认 列表 不 为 空 ! 


O & Ł bus3 的 Dave 出 现在 bus2 中 。 





o 














@ 问题 是 ，bus2.passengers 和 bus3.passengers 指 代 同一 个 列表 。 
@ {E bus1. passengers 是 不 同 的 列表 。 
问题 在 于 ， 没 有 指定 初始 乘客 的 HauntedBus 实例 会 共享 同一 个 乘客 列表 。 


这 种 问题 很 难 发 现 。 如 示例 8-13 所 示 ， 实 例 化 HauntedBus 时 ， 如 果 传 入 乘客 ， 会 按 预 
期 运作 。 但 是 不 为 HauntedBus 指定 乘客 的 话 ， 奇 怪 的 事 就 发 生 了 ， 这 是 因为 

self.passengers 变 成 了 passengers 参数 默认 值 的 别名 。 出 现 这 个 问题 的 根源 是 ， 默 
认 值 在 定义 函数 时 计算 〈 通 常 在 加 载 模块 时 ) ， 因 此 默认 值 变 成 了 函数 对 象 的 属性 。 
此 ， 如 果 默 认 值 是 可 变 对 象 ， 而 且 修 改 了 它 的 值 ， 那 么 后 续 的 函数 调用 都 会 受到 影响 。 


运行 示例 8-13 中 的 代码 之 后 ， 可 以 审查 HauntedBus. init 对象， 看 看 它 的 
_ defaults _ 属性 中 的 那些 幽灵 学 生 : 


























—= 




















>>> dir(HauntedBus.__init__) # doctest: +ELLIPSIS 
['__annotations__', ' call ', ..., ' defaults ', ...] 
>>> HauntedBus. init . _ defaults _ 

(['Carrie', 'Dave'],) 





最 后 ， 我 们 可 以 验证 bus2.passengers 是 一 个 别名 ， 它 绑 定 到 
HauntedBus. init . _ defaults ”属性 的 第 一 个 元 素 上 : 














>>> HauntedBus. init . defaults [86] is bus2.passengers 
True 








可 变 默 认 值 导致 的 这 个 问题 说 明了 为 什么 通常 使 用 None 作为 接收 可 变 值 的 参数 的 默认 
值 。 在 示例 8-8 P, init ”方法 检查 passengers 参数 的 值 是 不 是 None， 如 果 是 就 把 
一 个 新 的 空 列 表 赋 值 给 self.passengers。 下 一 节 会 说 明 ， 如 果 passengers 不 是 
None， 正 确 的 实现 会 把 passengers 的 副本 赋值 给 self.passengers。 下 面 详解 。 


8.4.2 ”防御 可 变 参 数 
如 果 定 义 的 函数 接收 可 变 参 数 ， 应 该 谨慎 考虑 调用 方 是 否 期 望 修改 传 入 的 参数 。 






























































例如 ， 如 果 函 数 接收 一 个 字典 ， 而 且 在 处 理 的 过 程 中 要 修改 它 ， 那 么 这 个 副作用 要 不 要 体 
现 到 函数 外 部 ?具体 情况 具体 分 析 。 这 其 实 需 要 函数 的 编写 者 和 调用 方 达成 共识 。 


在 本 章 最 后 一 个 校车 示例 中 ，TwilightBus 实例 与 客户 共享 乘客 列表 ， 这 会 产生 意料 之 
外 的 结果 。 在 分 析 实 现 之 前 ， 我 们 先 从 客户 的 角度 看 看 TwilightBus 类 是 如 何 工作 的 。 


示例 8-14 从 TwilightBus 下 车 后 ， 乘 客 消 失 了 


















































>>> basketball team = ['Sue', 'Tina', 'Maya', 'Diana', 'Pat'] © 
>>> bus = TwilightBus(basketball team) @ 
>>> bus.drop('Tina') © 


>>> bus.drop('Pat') 
>>> basketball team @ 
['Sue', 'Maya', 'Diana'] 








@ basketball_ team 中 有 5 个 学 生 的 名 字 。 

四 使 用 这 队 学 生 实 例 化 TwilightBus. 

四 一 个 学 生 从 bus 下 车 了 ， 接 着 又 有 一 个 学 生 下 车 了 。 
全 下 车 的 学 生 从 迄 球 队 中 消失 了 ! 


TwilightBus 违反 了 设计 接口 的 最 佳 实践 ， 即 “最 少 尺 讶 原则 ”*。 学 生 从 校车 中 下 和 车 后 ， 
她 的 名 字 就 从 篮球 队 的 名 单 中 消失 了 ， 这 确实 让 人 惊讶 。 


示例 8-15 是 TwilightBus 的 实现 ， 随 后 解释 了 出 现 这 个 问题 的 原因 。 


示例 8-15 一 个 简单 的 类 ， 说 明 接受 可 变 参数 的 风险 





























class TwilightBus: 
""" 让 乘客 销声匿迹 的 校车 """ 





def _init (self, passengers=None): 
if passengers is None: 
self.passengers = [] ©O 
else: 
self.passengers = passengers @ 


def pick(self, name): 
self.passengers.append(name) 


def drop(self, name): 
self.passengers.remove(name) © 























@ 这 里 谨慎 处 理 ， 当 passengers X None 时 ， 创 建 一 个 新 的 空 列表 。 


O 然而， 这 个 赋值 语句 把 self .passengers 变 成 passengers 的 别名 ， 而 后 者 是 传 给 
_ init _ 方法 的 实 参 ( 即 示例 8-14 中 的 basketball_team) 的 别名 。 


























© £ self.passengers 上 调用 .remove() 和 .append() 方法 其 实 会 修改 传 给 构造 方法 
的 那个 列表 。 


这 里 的 问题 是 ， 校 车 为 传 给 构造 方法 的 列表 创建 了 别名 。 正 确 的 做 法 是 ， 校 车 自己 维护 乘 
客 列 表 。 修 正 的 方法 很 简单 : 在 ”init _ 中 ,， 传 入 passengers 参数 时 ， 应 该 把 参数 值 
的 副本 赋值 给 self.passengers， 像 示例 8-8 中 那样 做 (8.3 节 ) 。 




















def _ init__(self, passengers=None): 
if passengers is None: 
self.passengers = [] 


else: 
self.passengers = list(passengers) @ 











O 创建 passengers 列表 的 副本 ; 如 果 不 是 列表 ， 就 把 它 转换 成 列表 。 


在 内 部 像 这 样 处 理 乘 客 列表 ， 就 不 会 影响 初始 化 校车 时 传 入 的 参数 了 。 此 外 ， 这 种 处 理 方 
式 还 更 灵活 : 现在 ， 传 给 passengers 参数 的 值 可 以 是 元 组 或 任何 其 他 可 和 迭代 对 象 ， 例 如 
set 对 象 ， 甚 至 数据 库 查 询 结果 ， 因 为 list 构造 方法 接受 任何 可 和 迭代 对 象 。 自 己 创 建 并 
管理 列表 可 以 确保 支持 所 需 的 .remove() 和 .append() 操作 ， 这 样 .pick() 和 
.drop() 方法 才能 正常 运作 。 










































































~ 除非 这 个 方法 确实 想 修改 通过 参数 传 入 的 对 象 ， 否 则 在 类 中 直接 把 参数 赋值 给 
实例 变量 之 前 一 定 要 三 思 ， 因 为 这 Ne 为 参数 对 象 创 建 别名 。 如 果 不 确 定 ， 那 就 创建 
副本 。 这 样 客户 会 少 些 麻 烦 。 
































8.5 del 和 垃圾 回收 
对 象 绝 不 会 自行 销毁 ;， 然 而， 无 法 得 到 对 象 时 ， 可 能 会 被 当 作 垃 圾 回收 。 

— Python 语言 参考 手册 中 “Data Model” 一 章 
del 语句 删除 名 称 ， 而 不 是 对 象 。del 命令 可 能 会 导致 对 象 被 当 作 垃圾 回收 ， 但 是 仅 当 删 


除 的 变量 保存 的 是 对 象 的 最 后 一 个 引用 ， 或 者 无 法 得 到 对 象 时 。“ 重新 绑 定 也 可 能 会 导致 
对 象 的 引用 数量 归 零 ， 导 致 对 象 被 销毁 。 
























































?2 如果 两 个 对 象 相互 引用 ， 像 示例 8-10 那样 ， 当 它们 的 引用 只 存在 二 者 之 间 时 ， 垃 圾 回收 程序 会 判定 它们 都 无 法 获 
取 ， 进 而 把 它们 都 销毁 。 
































ex 有 个 del ”特殊 方法 ， 但 是 它 不 会 销毁 实例 ， 不 应 该 在 代码 中 调用 。 即 将 
销毁 实例 时 ，Python 解释 器 会 调用 del 方法 ， 给 实例 最 后 的 机 会 ， 释 放 外 部 资 
源 。 自 己 编写 的 代码 很 少 需要 实现 del _ 代码 ， 有 些 Python 新 手 会 花 时 间 实 现 ， 
但 却 吃力 不 讨 好 ， 因 为 _del__ 很 难 用 对 。 详 情 参 见 Python 语言 参考 手册 中 “Data 
Model” 一 章 中 del _ 特殊 方法 的 文档 
(https://docs.python.org/3/reference/datamodel.html#object. del )。 


在 CPython 中 ， 垃 圾 回收 使 用 的 主要 算法 是 引用 计数 。 实 际 上 ， 每 个 对 象 都 会 统计 有 多 少 
引用 指向 自己 。 当 引用 计数 归 零 时 ， 对 象 立即 就 被 销毁 : CPython 会 在 对 象 上 调用 
del 方法 〈 如 果 定 义 了 ) ， 然 后 释放 分 配给 对 象 的 内 存 。CPython 2.0 增加 了 分 代 垃 
圾 回收 算法 ， 用 于 检测 引用 循环 中 涉及 的 对 象 组 一 一 如 果 一 组 对 象 之 间 全 是 相互 引用 ， 即 
使 再 出 色 的 引用 方式 也 会 导致 组 中 的 对 象 不 可 获取 。Python 的 其 他 实现 有 更 复杂 的 垃圾 回 
收 程序 ， 而 且 不 依赖 引用 计数 ， 这 意味 着 ， 对 象 的 引用 数量 为 零 时 可 能 不 会 立即 调用 

_ del 方法 。A. Jesse Jiryu Davis 写 的 “PyPy, Garbage Collection, and a Deadlock” — X 
(https://emptysqua.re/blog/pypy-garbage-collection-and-a-deadlock/) 对 del _ 方法 的 恰 
当 用 法 和 不 当 用 法 做 了 讨论 。 


为 了 演示 对 象 生命 结束 时 的 情形 ， 示 例 8-16 使 用 weakref.finalize 注册 一 个 回调 函 
数 ， 在 销毁 对 象 时 调用 。 


示例 8-16 没有 指向 对 象 的 引用 时 ， 监 视 对 象 生 命 结束 时 的 情形 

































































>>> import weakref 
>>> s1 = {1, 2, 3} 
>>> S2 = s1 
>>> def bye(): © 
print('Gone with the wind...') 


>>> ender = weakref.finalize(s1, bye) © 
>>> ender.alive 

True 

>>> del s1 

>>> ender.alive © 





True 

>>> s2 = 'spam' © 
Gone with the wind... 
>>> ender.alive 

False 








@ sl 和 s2 是 别名 ， 指 向 同一 个 集合 ，{1，2，3}。 

四 这 个 函数 一 定 不 能 是 要 销毁 的 对 象 的 绑 定 方法 ， 否 则 会 有 一 个 指向 对 象 的 引用 。 
全 在 sl 引用 的 对 象 上 注册 bye 回调 。 

四 调用 finalize 对 象 之 前 ，.alive 属性 的 值 为 True。 

O 如 前 所 述 ，del 不 删除 对 象 ， 而 是 删除 对 象 的 引用 。 


O 重新 绑 定 最 后 一 个 引用 s2， 让 {1，2，3} 无 法 获取 。 对 象 被 销毁 了 ， 调 用 了 bye E 
调 ，ender.alive 的 值 变 成 了 False. 


示例 8-16 的 目的 是 明确 指出 del 不 会 删除 对 象 ， 但 是 执行 del 操作 后 可 能 会 导致 对 象 不 
可 获取 ， 从 而 被 删除 。 


你 可 能 觉得 奇怪 ， 为 什么 示例 8-16 中 的 {1, 2, 3} 对 象 被 销毁 了 ? 毕竟 ， 我 们 把 s1 引 
用 传 给 finalize 水 数 了 ， 而 为 了 监控 对 象 和 调用 回调 ， 必 须要 有 引用 。 这 是 因 
WA, finalize 持 有 {1，2，3} 的 弱 引 用 ， 参 见 下 一 节 。 



























































8.6 355/40 

正 是 因为 有 引用 ， 对 象 才 会 在 内 存 中 存在 。 当 对 象 的 引用 数量 归 零 后 ， 垃 圾 回收 程序 会 把 
对 象 销毁。 但是， 有 时 需要 引用 对 象 ， 而 不 让 对 象 存在 的 时 间 超过 所 需 时 间 。 这 经 党 用 在 
缓存 中 。 


弱 引 用 不 会 增加 对 象 的 引用 数量 。 引 用 的 目标 对 象 称 为 所 指 对 象 Creferent) 。 因 此 我 们 
说 ， 弱 引用 不 会 妨碍 所 指 对象 被 当 作 垃圾 回收 。 


弱 引 用 在 缓存 应 用 中 很 有 用 ， 因 为 我 们 不 想 仅 因 为 被 缓存 引用 着 而 始终 保存 缓存 对 象 。 


示例 8-17 展示 了 如 何 使 用 weakref. ref 实例 获取 所 指 对 象 。 如 果 对 象 存在 ， 调 用 弱 引 用 
可 以 获取 对 象 ， 否 则 返回 None. 


























a 示例 8-17 是 一 个 控制 台 会 话 ，Python 控制 台 会 自动 把 “变量 绑 定 到 结果 不 为 
None 的 表达 式 结果 上 。 这 对 我 想 演示 的 行为 有 影响 ， 不 过 却 凸 显 了 一 个 实际 问题 : 
微观 管理 内 存 时 ， 往 往 会 得 到 意外 的 结果 ， 因 为 不 明显 的 隐 式 赋值 会 为 对 象 创建 新 引 
用 。 控 制 台中 的 _ 变量 是 一 例 。 调 用 跟踪 对 象 也 常 导致 意料 之 外 的 引用 。 















































示例 8-17 弱 引 用 是 可 调用 的 对 象 ， 返 回 的 是 被 引用 的 对 象 ， 如 果 所 指 对 象 不 存在 
了 ， 返 回 None 


>>> import weakref 

>>> a_set = {@, 1} 

>>> wref = weakref.ref(a_set) @ 
>>> wref 

<weakref at @x10@637598; to 'set' at @x100636748> 
>>> wref() 

{0, 1} 

>>> a set = {2, 3, 4} © 

>>> wref() @ 

{0, 1} 

>>> wref() is None © 

False 

>>> wref() is None QO 

True 





@ 创建 弱 引 用 对 象 wref， 下 一 行 审查 它 。 
@ 调用 wref() 返回 的 是 被 引用 的 对 象 ，{6，1}。 因 为 这 是 控制 台 会 话 ， 所 以 {06，1} 


会 绑 定 给 _ 变量 。 


四 a_set 不 再 指 代 {6，1} 集合 ， 因 此 集合 的 引用 数量 减少 了 。 但 是 _ 变量 仍然 指 代 
ioe 




















O 调用 wref() 依旧 返回 {@, 1}. 


O 计算 这 个 表达 式 时 ，{8，11 存在 ， 因 此 wref() 不 是 None。 但 是 ， 随 后 “ 绑 定 到 结 
果 值 False。 现 在 {6，1} 没有 强 引 用 了 。 


@ 因为 {6，1} 对 象 不 存在 了 ， 所 以 wref() 返回 None. 


weakref 模块 的 文档 Chttp://docs.python.org/3/library/weakref.html) 指出 ，weakref.ref 
类 其 实 是 低层 接口 ， 供 高 级 用 途 使 用 ， 多 数 程 序 最 好 使 用 weakref 集合 和 finalize. tH 
就 是 说 ， 应 该 使 用 WeakKeyDictionary、WeakValueDictionary、WeakSet 和 
finalize〈 在 内 部 使 用 弱 引 用 ) ， 不 要 自己 动手 创建 并 处 理 weakref.ref 实例 。 我 们 在 
示例 8-17 中 那么 做 是 希望 借助 实际 使 用 weakref.ref 来 褪去 它 的 神秘 色彩 。 但 是 实际 
上 ， 多 数 时 候 Python 程序 都 使 用 weakref 集合 。 


下 一 节 简 要 讨论 weakref 集合 。 












































8.6.1 ”WeakValueDictionary 简 介 


WeakValueDictionary 类 实现 的 是 一 种 可 变 映射 ， 里 面 的 值 是 对 象 的 弱 引 用 。 被 引用 的 
对 象 在 程序 中 的 其 他 地 方 被 当 作 垃圾 回收 后 ， 对 应 的 键 会 自动 从 WeakValueDictionary 
中 删除 。 因 此 ，WeakValueDictionary 经 常用 于 缓存 。 





























我 们 对 WeakValueDictionary 的 演示 受到 来 自 英国 六 人 喜剧 团体 Monty Python 的 经 典 短 
剖 《 奶 酷 店 》 的 启发 ， 在 那 出 短 剧 里 ， 客 户 问 了 40 多 种 奶 栈 ， 包 括 切 达 干 栈 和 马 苏 里 拉 
奶酪 ， 但 是 都 没有 货 。3 












































3cheeseshop.python.org 还 是 PyPI (Python Package Index 软件 仓库 ) 的 别名 ， 一 开始 里 面 什么 也 没有 。 写 作 本 书 
I, Python Cheese Shop 中 有 41 426 个 包 。 还 不 错 ， 但 是 与 有 131 000 个 模块 的 CPAN (Comprehensive Perl Archive 
Network) 相 比 ， 还 差 得 远 。 所 有 动态 语言 社区 都 羡慕 CPAN 中 有 那么 多 模块 。 























示例 8-18 实现 一 个 简单 的 类 ， 表 示 各 种 奶酪 。 


示例 8-18 Cheese 有 个 kind 属性 和 标准 的 字符 串 表 示 形 式 








class Cheese: 


def _ init__(self, kind): 
self.kind = kind 


def _repr_ (self): 
return 'Cheese(%r)' % self.kind 








在 示例 8-19 中 ， 我 们 把 catalog 中 的 各 种 奶 酷 载 入 WeakValueDictionary 实现 的 
stock 中 。 然 而 ， 删 除 catalog Ja, stock 中 只 剩 下 一 种 奶 酷 了 。 你 知道 为 什么 帕尔马 
干酪 (Parmesan) 比 其 他 奶酪 保存 的 时 间 长 吗 ? 4 代码 后 面 的 提示 中 有 答案 。 














4 帕尔马 干酪 在 工厂 中 至 少 要 存储 一 年 ， 因 此 它 比 其 他 新 鲜 奶 酪 的 保存 时 间 长 。 但 是 ， 这 不 是 我 们 想 要 的 答案 。 


























示例 8-19 ”顾客 :“ 你 们 店 里 到 底 有 没有 奶酪 ? ” 


>>> import weakref 

>>> stock = weakref.WeakValueDictionary() © 

>>> catalog = [Cheese('Red Leicester’), Cheese('Tilsit'), 
Cheese('Brie'), Cheese('Parmesan' ) ] 


>>> for cheese in catalog: 
stock[cheese.kind] = cheese @ 


>>> sorted(stock.keys()) 

['Brie', 'Parmesan', "Red Leicester', 'Tilsit'] © 
>>> del catalog 

>>> sorted(stock.keys()) 

[ ‘Parmesan’ ] 

>>> del cheese 

>>> sorted(stock.keys()) 





@ stock 是 WeakValueDictionary 实例 。 
四 stock 把 奶酪 的 名 称 映 射 到 catalog Cheese 实例 的 弱 引 用 上 。 
O stock 是 完整 的 。 


四 删除 catalog 之 后 ，stock 中 的 大 多 数 奶 酷 都 不 见 了 ， 这 是 WeakValueDictionary 
的 预期 行为 。 为 什么 不 是 全 部 呢 ? 











~ 临时 变量 引用 了 对 象 ， 这 可 能 会 导致 该 变量 的 存在 时 间 比 预期 长 。 通 常 ， 这 对 
局 部 变量 来 说 不 是 问题 ， 因 为 它们 在 函数 返回 时 会 被 销毁 。 但 是 在 示例 8- 19 中 ，for 
循环 中 的 变量 cheese 是 全 局 变量 ， 除 非 显 式 删除 ， 否 则 不 会 消失 。 


与 WeakValueDictionary 对 应 的 是 WeakKeyDictionary， 后 者 的 键 是 弱 引 
用 。weakref.WeakKeyDictionary 的 文档 (https://docs.python.org/3/library/weakref.html? 
highlight=weakref#weakref.WeakKeyDictionary) 指出 了 一 些 可 能 的 用 途 : 


(WeakKeyDictionary 实例 ) 可 以 为 应 用 中 其 他 部 分 拥有 的 对 象 附 加 数据 ， 这 样 就 
无 需 为 对 象 添加 属性 。 这 对 履 盖 属性 访问 权限 的 对 象 尤 其 有 用 。 


weakref 模块 还 提供 了 WeakSet 类 ， 按 照 文档 的 说 明 ， “保存 元 素 
弱 引 用 的 集合 类 。 元 素 没 有 强 引 用 时 ， 集 合 会 把 它 删 除 。” 如 果 一 个 类 需要 知道 所 有 实 
例 ， 一 种 好 的 方案 是 创建 一 个 WeakSet 类 型 的 类 属性 ， 保 存 实例 如 果 使 用 常规 
的 set， 实 例 永远 不 会 被 垃圾 回收 ， 因 为 类 中 有 实例 的 强 引 用 ， 而 类 存在 的 时 间 与 Python 
进程 一 样 长 ， 除 非 显 式 删 除 类 。 


这 些 集合 ， 以 及 一 般 的 弱 引用 ， 能 处 理 的 对 象 类 型 有 限 。 参 见 下 一 节 的 说 明 。 
8.6.2 ” 弱 引 用 的 局 限 




























































































不 是 每 个 Python 对 象 都 可 以 作为 弱 引 用 的 目标 《或 称 所 指 对 象 ) 。 基 本 的 List 和 dict 
实例 不 能 作为 所 指 对 象 ， 但 是 它们 的 子 类 可 以 轻松 地 解决 这 个 问题 : 








class MyList(list): 
”""1ist 的 子 类 ， 实 例 可 以 作为 弱 引 用 的 目标 """ 


























a_list = MyList(range(16)) 








# a_list 可 以 作为 弱 引 用 的 目标 


wref to a list = weakref.ref(a list) 


























set 实例 可 以 作为 所 指 对 象 ， 因 此 实例 8-17 HEH set 实例 。 用 户 定义 的 类 型 也 没 问 
题 ， 这 就 解释 了 示例 8-19 中 为 什么 使 用 那个 简单 的 Cheese 类 。 但 是 ，int 和 tuple 实 
例 不 能 作为 弱 引 用 的 目标 ， 甚 至 它们 的 子 类 也 不 行 。 


这 些 局 限 基 本 上 是 CPython 的 实现 细节 ， 在 其 他 Python 解释 器 中 情况 可 能 不 一 样 。 这 些 局 
限 是 内 部 优化 导致 的 结果 ， 下 一 节 会 以 其 中 几 个 类 型 为 例 讨 论 〈 完 全 选读 ) 。 























8.7 Python 对 不 可 变 类 型 施加 的 把 戏 


` 你 可 以 放心 跳 过 本 节 。 这 里 讨论 的 是 Python 的 实现 细节 ， 对 Python 用 户 来 说 
没 那么 重要 。 这 些 细节 是 CPython 核心 开发 者 走 的 捷径 和 做 的 优化 措施 ， 对 这 门 语言 
的 用 户 而 言 无 需 了 解 ， 而 且 那 些 细节 对 其 他 Python 实现 可 能 没 用 ，CPython 未 来 的 版 
本 可 能 也 不 会 用 。 尽 管 如 此 ， 在 学 习 别名 和 副本 的 过 程 中 ， 你 可 能 偶然 见 过 这 些 把 
戏 ， 因 此 我 觉得 有 必要 讲 一 下 。 


我 惊讶 地 发 现 ， 对 元 组 七 来 说 ，tf[ : ] 不 创建 副本 ， 而 是 返回 同一 个 对 象 的 引用 。 此 
外 ，tuple(t) 获得 的 也 是 同一 个 元 组 的 引用 。s 示例 8-20 证 明了 这 一 点 。 


















































5 文档 明确 指出 了 这 个 行为 。 在 Python 控制 台中 输入 help(tuple)， 你 会 看 到 这 名 话 :“ 如 果 参 数 是 一 个 元 组 ， 那 么 返 
回 值 是 同一 个 对 象 。 ”撰写 这 本 书 之 前 ， 我 还 以 为 自己 对 元 组 无 所 不 知 。 























示例 8-20 ”使 用 另 一 个 元 组 构建 元 组 ， 得 到 的 其 实 是 同一 个 元 组 





(1, 2, 3) 
>>> t2 = tuple(t1) 
>> t2 is t1 Q 


Vv 
Vv 
Vv 
ct 
ry 
1 外 


>>> t3 = t1[:] 
>> t3 is t1 @ 





@ tl 和 t2 绑 定 到 同一 个 对 象 。 
@ t3 He. 
str、bytes 和 frozenset 实例 也 有 这 种 行为 。 注 意 ，frozenset 实例 不 是 序列 ， 因 此 


不 能 使 用 fs[:] (fs 是 一 个 frozenset 实例 ) 。 但 是 ，fs .copy() 具有 相同 的 效果 : 它 
会 欺骗 你 ， 返 回 同一 个 对 象 的 引用 ， 而 不 是 创建 一 个 副本 ， 如 示例 8-21 Ara. © 





















































Scopy 方法 不 会 复制 所 有 对 象 ， 这 是 一 个 善意 的 谎言 ， 为 的 是 接口 的 兼容 性 : 这 使 得 frozenset 的 兼容 性 比 set 强 。 
两 个 不 可 变 对 象 是 同一 个 对 象 还 是 副本 ， 反 正 对 最 终 用 户 来 说 没有 区 别 。 












































示例 8-21 字符 串 字 面 量 可 能 会 创建 共享 的 对 象 





>>> t1 = (1, 2, 3) 

>>> t3 = (1, 2, 3) #0 
>>> t3 is t1 #@ 

False 

>>> s1 "ABC ' 

>>> s2 = 'ABC' #0 
>>> s2 is s1 #0 

True 











@ 新 建 一 个 元 组 。 

四 t1 和 t3 相等 ， 但 不 是 同一 个 对 象 。 

O 再 新 建 一 个 字符 串 。 

O 奇怪 的 事 发 生 了 ，a 和 b 指 代 同一 个 字符 串 。 
共享 字符 串 字面 量 是 一 种 优化 措施 ， 称 为 驻 留 〈interning) 。CPython 还 会 在 小 的 整数 上 


使 用 这 个 优化 措施 ， 防 止 重复 创建 “热门 ”数字 ， 如 0、-1 和 42。 注 意 ，CPython 不 会 驻 留 
所 有 字符 串 和 整数 ， 驻 留 的 条 件 是 实现 细节 ， 而 且 没 有 文档 说 明 。 









































Be 干 万 不 要 依赖 字符 串 或 整数 的 驻 留 ! 比较 字符 串 或 整数 是 否 相等 时 ， 应 该 使 
用 ==， 而 不 是 is. FER Python 解释 器 内 部 使 用 的 一 个 特性 。 


本 节 讨 论 的 把 戏 ， 包 括 frozenset .copy() 的 行为 ， 是 “善意 的 谎言 >， 能 节省 内 存 ， 提 
升 解 释 器 的 速度 。 别 担心 ， 它 们 不 会 为 你 带 来 任何 砍 烦 ， 因 为 只 有 不 可 变 类 型 会 受到 影 
响 。 或 许 这 些 细 校 末节 的 最 佳 用 途 是 与 其 他 Python 程序 员 打 赌 ， 提 高 自己 的 胜算 。 























8.8 本章 小 结 
每 个 Python 对 象 都 有 标识 、 类 型 和 值 。 只 有 对 象 的 值 会 不 时 变化 。” 


















































一 | 


其 实 ， 对 象 的 类 型 也 可 以 变 ， 方 法 只 有 一 种 : ON class ”属性 指定 其 他 类 。 但 这 是 在 作恶 ， 我 后 悔 加 上 这 个 脚注 


如 果 两 个 变量 指 代 的 不 可 变 对 象 具 有 相同 的 值 (a == b 为 True) ， 实 际 上 它们 指 代 的 是 
副本 还 是 同一 个 对 象 的 别名 基本 没什么 关系 ， 因为 不 可 变 对 象 的 值 不 会 变 ， 但 有 一 个 例 

外 。 这 里 说 的 例外 是 不 可 变 的 集合 ， 如 元 组 和 frozenset: 如 果 不 可 变 集合 保存 的 是 可 

变 元 素 的 引用 ， 那 么 可 变 元 素 的 值 发 生变 化 后 ， 不 可 变 集合 也 会 随 之 改变 。 实 际 上 ， 这 种 
情况 不 是 很 常见 。 不 可 变 集 合 不 变 的 是 所 含 对 象 的 标识 。 


变量 保存 的 是 引用 ， 这 一 点 对 Python 编程 有 很 多 实际 的 影响 。 
。 简单 的 赋值 不 创建 副本 。 


。 对 += 或 *= 所 做 的 增 量 赋值 来 说 ， 如 果 左 边 的 变量 绑 定 的 是 不 可 变 对 象 ， 会 创建 新 
对 象 ， 如 果 是 可 变 对 象 ， 会 就 地 修改 。 


。 为 现 有 的 变量 赋予 新 值 ， 不 会 修改 之 前 绑 定 的 变量 。 这 叫 重 新 绑 定 : 现在 变量 绑 定 了 
其 他 对 象 。 如 果 变 量 是 之 前 那个 对 象 的 最 后 一 个 引用 ， 对 象 会 被 当 作 垃圾 回收 。 


。 函数 的 参数 以 别名 的 形式 传递 ， 这 意味 着 ， 函 数 可 能 会 修改 通过 参数 传 入 的 可 变 对 
象 。 这 一 行为 无 法 避免 ， 除 非 在 本 地 创建 副本 ， 或 者 使 用 不 可 变 对 象 〈 例 如 ， 传 入 元 
组 ， 而 不 传 入 列表 ) 。 


使 用 可 变 类 型 作为 函数 参数 的 默认 值 有 和 危险， 因为 如 果 就 地 修改 了 人 参数， 默认 值 也 就 
变 了 ， 这 会 影响 以 后 使 用 默认 值 的 调用 。 


在 CPython 中 ， 对 象 的 引用 数量 归 堆 后， 对象 会 被 立即 销毁 。 如 果 除 了 循环 引用 之 外 没有 
其 他 引用 ， 两 个 对 象 都 会 被 销毁 。 某 些 情况 下 ， 可 和 需要 保存 对 象 的 引用 ， 但 不 留存 对 象 
本 身 。 例 如 ， 有 一 个 类 想 要 记录 所 有 实例 。 这 个 需求 可 以 使 用 弱 引 用 实现 ， 这 是 一 种 低层 
机 制 ， 是 weakref 模块 中 WeakValueDictionary、WeakKeyDictionary 和 WeakSet 等 
有 用 的 集合 类 ， 以 及 finalize 函数 的 底层 支持 。 
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8.9 ”延伸 阅读 


Python 语言 参考 手册 中 “Data Model” 一 章 
(https://docs.python.org/3/reference/datamodel.html) 的 开头 清楚 解释 了 对 象 的 标识 和 值 。 


“Python 核心 系列 ”图 书 的 作者 Wesley Chun 在 OSCON 2013 做 了 一 场 精 彩 的 演讲 ， 涵 盖 了 

本 章 讨论 的 很 多 话题 。 在 “Python 103: Memory Model & Best Practices” 演 讲 页 面 
(http://conferences.oreilly.com/oscon/oscon2013/public/schedule/detail/29374) 可 以 下 载 约 灯 

片 。Wesley 在 EuroPython 2011 还 做 过 一 次 更 长 的 演讲 CYouTube 视 

频 : https://www.youtube.con/watch?v=HHFCFJSPWrl) ， 不 仅 涵 盖 了 本 章 的 主题 ， 还 讨论 

了 特殊 方法 的 使 用 。 


Doug Hellmann 写 了 一 长 串 精 彩 的 博客 文章 ， 题 为 "Python Module of the 

Week” Chttp://pymotw.com) ，8 后 来 集结 成 书 ， 即 《Python 标准 库 》。 他 写 的 “copy - 
Duplicate Objects” (http://pymotw.com/2/copy/) ° #ilweakref - Garbage-Collectable 
References to Objects” (http://pymotw.con/2/weakref/) 10 两 篇 文章 涵盖 了 本 章 讨论 的 部 分 
话题 。 


















































8 原来 是 基于 Python 2 的 Chttps//pymotw.com/2/) ， 现 在 已 经 改 为 基于 Python 3 Chttps//pymotw.com/3/) 。 一 编者 注 
?新 的 版 本 基于 Python 3 Chttps//pymotw.com/3/copy/) 。 一 一 编者 注 














10 新 的 版 本 基于 Python 3， 并 改名 为 “weakref - Impermanent References to Objects” (httpsy/pymotw.comy/3/wealaref/) 。 
一 一 编者 注 














关于 CPython 分 代 垃 圾 回收 程序 的 更 多 信息 ， 请 参阅 gc 模块 的 文档 
Chttps://docs.python.org/3/library/gc.html) 。 文 档 开 头 的 第 一 句 话 是 : “这 个 模块 为 可 选 的 

垃圾 回收 程序 提供 接口 。 关 可 选 的 ”这 个 修饰 词 可 能 让 人 人 惊讶， 不 过 “Data Model” 一 章 
(Chttps://docs.python.org/3/reference/datamodel.html) tii: 


垃圾 回收 可 以 延 绥 实现， 或 者 完全 不 实现 一 一 如 何 实现 垃圾 回收 是 实现 的 质量 问题 ， 
只 要 不 把 还 能 获得 的 对 象 给 回收 了 就 行 。 


Fredrik Lundh〔 很 多 核心 库 的 创建 者 ， 如 ElementTree、Tkinter 和 图 像 库 PIL) 写 了 一 篇 短 
文 ， 谈论 了 Python 的 垃圾 回收 程序 ， 题 为 "How Does Python Manage 

Memory?” Chttp://effbot.org/pyfaq/how-does-python-manage-memory.htm) 。 他 强调 垃圾 回收 
程序 是 一 种 实现 的 特性 ， 其 行为 在 不 同 的 Python 解释 器 中 有 所 不 同 。 例 如 ，Jython 用 的 是 
Java 垃圾 回收 程序 。 





















































CPython 3.4 改进 了 处 理 有 del ”方法 的 对 象 的 方式 ， 参 见 “PEP 442 一 Safe object 
finalization” Chttps://www.python.org/dev/peps/pep-0442/) 。 


维基 百科 中 有 一 篇 文章 讲解 了 字符 串 驻 留 


Chttps://en.wikipedia.org/wiki/String interning) ， 那 篇 文章 提 到 了 几 种 语言 对 这 个 技术 的 
利用 ， 包 括 Python。 
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平等 对 待 所 有 对 象 


发 现 Python 之 前 ， 我 学 过 Java。 我 一 直觉 得 Java 的 == 运算 符 用 着 不 舒服 。 程 序 员 关 
注 的 基本 上 是 相等 性 ， 而 不 是 标识 ， 但 是 Java 的 == 运算 符 比 较 的 是 对 象 ( 不 是 基本 
类 型 ) 的 引用 ， 而 不 是 对 象 的 值 。 就 算是 比较 字符 昌 这 样 的 基本 操作 ， Java 也 强制 
你 使 用 .equals 方法 。 尽 管 如 此 ，.equals 方法 还 有 另 一 个 问题 : 如 果 编 写 
a.equals(b)， 而 a 是 null， 会 得 到 一 个 空 指针 异常 。Java 设计 者 觉得 有 必要 重 载 
字符 串 的 + 运算 符 ， 那 为 什么 不 把 == BERT? 


Python 采取 了 正确 的 方式 。== 运算 符 比 较 对 象 的 值 ， 而 is 比较 引用 。 此 外 ，Python 
支持 重 载运 算 符 ，== 能 正确 处 理 标准 库 中 的 所 有 对 象 ， 包 括 None 一 一 这 是 一 个 正常 
的 对 象 ， 与 Java 的 null 不 同 。 


当然 ， 你 可 以 在 自己 的 类 中 定义 eq Wis, Rie == 如 何 比较 实例 。 如 果 不 和 覆盖 
__eq Wik, MAM object 继承 的 方法 比较 对 象 的 了 PP， 因此 这 种 后 备 机 制 认 为 用 
3 定义 的 类 的 各 个 实例 是 不 同 的 。 


1998 年 9 月 的 一 个 下 午 ， 读 完 Python 教程 后 ， 考 虑 到 这 些 行 为 ， 我 立即 就 从 Java 转 
到 了 Python 了 。 


可 变性 


如 果 所 有 Python 对 象 都 是 不 可 变 的 ， 那 么 本 章 就 没有 存在 的 必要 了 。 处 理 不 可 变 的 
对 象 时 ， 变 量 保存 的 是 真正 的 对 象 还 是 共享 对 象 的 引用 无 关 紧 要 。 如 果 a == b 成 
立 ， 而 且 两 个 对 象 都 不 会 变 ， 那 么 它们 就 可 能 是 相同 的 对 象 。 这 就 是 为 什么 字符 串 可 
以 安全 使 用 驻 留 。 仪 当 对 象 可 变 时 ， 对 象 标识 才 重 要 。 


ae a 所 有 数据 都 是 不 可 变 的 ， 如 来 为 集合 妃 加 元 素 ， 那 么 其 实 会 创 
建新 的 集合 。 然 而 ，Python 不 是 函数 式 语言 ， 更 别提 纯 不 纯 了 。 在 Python 中 ， 用 户 

定义 的 类 ， 其 实例 默认 可 变 〈 多 数 面 向 对 象 语言 都 是 如 此 ) 。 目 己 创 建 对 象 时 ， 如 果 
需要 不 可 变 的 对 象 ， 一 定 要 格外 小 心 。 此 时 ， 对 象 的 每 个 属性 都 必须 是 不 可 变 的 ， A 
则 会 出 现 类 似 元 组 那 种 行为 : 元 组 本 身 不 可 变 ， 但 是 如 果 里 面 保 存 着 可 变 对 象 ， 那么 
元 组 的 值 可 能 会 变 。 


可 变 对 象 还 是 导致 多 线程 编程 难以 处 理 的 主要 原因 ， 因 为 某 个 线程 改动 对 象 后 ， 如 果 
不 正确 地 同步 ， 那 就 会 损坏 数据 。 但 是 过 度 同 步 又 会 导致 死 锁 。 


对 象 析 构 和 垃圾 回收 


Python 没有 直接 销毁 对 象 的 机 制 ， 这 一 疏 漏 其 实 是 一 个 好 的 特性 : 如 果 随 时 可 以 销毁 
对 象 ， 那 么 指向 对 象 的 强 引 用 怎么 办 ? 


CPython 中 的 垃圾 回收 主要 依靠 引用 计数 ， 这 容易 实现 ， 但 是 遇 到 引用 循环 容易 泄露 
内 存 ， 因 此 CPython 2.0 (2000 年 10 月 发 布 ) 实现 了 分 代 垃 圾 回收 程序 ， 它 能 把 引用 
循环 中 不 可 获取 的 对 象 销毁 

































































































































































































































































但 是 引用 计数 仍然 作为 一 种 基准 存在 ， 一 旦 引用 数量 归 零 ， 就 立即 销毁 对 象 。 这 意味 
着 ， 在 CPython 中 ， 这 样 写 是 安全 的 (至 少 目前 如 此 》: 


open('test.txt', 'wt', encoding='utf-8').write('1, 2, 3') 








这 行 代 码 是 安全 的 ， 因 为 文件 对 象 的 引用 数量 会 在 write 方法 返回 后 归 零 ，Python 
在 销毁 内 存 中 表示 文件 的 对 象 之 前 ， 会 立即 关闭 文件 。 然 而 ， 这 行 代码 在 Jython 或 
IronPython 中 却 不 安全 ， 因 为 它们 使 用 的 是 宿主 运行 时 (Java VM 和 NET CLR) 中 的 
垃圾 回收 程序 ， 那 些 回收 程序 更 复杂 ， 但 是 不 依靠 引用 计数 ， 而 且 销毁 对 象 和 关闭 文 
件 的 时 间 可 能 更 长 。 在 任何 情况 下 ， 包 括 CPython， 最 好 显 式 关 闭 文件 ， 而 关闭 文件 
的 最 可 靠 方式 是 使 用 with 语句 ， 它 能 保证 文件 一 定 会 被 关闭 ， 即 使 打开 文件 时 抛 出 
了 异常 也 无 妨 。 使 用 with， 上 述 代码 片段 变 成 了 : 























with open('test.txt', ‘wt', encoding='utf-8') as fp: 
fp.write('1, 2, 3') 








如 果 对 垃圾 回收 程序 感 兴趣 ， 可 以 阅读 Thomas Perl 的 论文 ，“Python Garbage 
Collector Implementations: CPython, PyPy and GaS” (https://thp.i0/2012/python- 
gc/python gc_final 2012-01-22.pdf) 。 就 是 从 那 篇 论文 中 ， 我 得 知 在 CPython 中 
open() .write() 是 安全 的 。 

参数 传递 : 共享 传 参 

解释 Python 中 参数 传递 的 方式 时 ， 人 们 经 常 这 样 说 :“ 参 数 按 值 传递 ， 但 是 这 里 的 值 
是 引用 。” 这 么 说 没 错 ， 但 是 会 引起 误解 ， 因 为 在 旧式 语言 中 ， 最 常用 的 参数 传递 模 
式 有 按 值 传递 〈 函 数 得 到 参数 的 副本 ) 和 按 引 用 传递 (函数 得 到 参数 的 指针 )〉 。 在 
Python 中 ， 函 数 得 到 参数 的 副本 ， 但 是 参数 始终 是 引用 。 因 此 ， 如 果 参 数 引 用 的 是 可 
变 对 象 ， 那 么 对 象 可 能 会 被 修改 ， 但 是 对 象 的 标识 不 变 。 此 外 ， 因 为 函数 得 到 的 是 参 
数 引 用 的 副本 ， 所 以 重新 绑 定 对 函数 外 部 没有 影响 。 读 过 《程序 设计 语言 一 一 实践 之 
路 〈 第 3 AK) ) (Michael L. Scott 著 ) 之 后 ， 尤 其 是 8.3.1 节 “参数 模式 ”， 我 决定 
采用 共享 传 参 (call by sharing) 这 个 说 法 。 


爱丽 丝 和 白 骑 士 关 于 那 首 歌 的 对 话 完整 版 


我 喜欢 这 段 对话 ， 但 是 放 在 一 章 的 开头 太 长 了 。 下 面 是 关于 白 骑 士 那 首 歌 的 完整 对 
话 ， 谈 到 了 曲名 和 得 名 的 缘由 。 


“你 不 开心 ，” 白 骑士 用 一 种 忧虑 的 声调 说 , “让 我 给 你 唱 一 首 歌 安慰 你 吧 。” 
“ 那 首 歌 很 长 吗 ? ”爱丽 丝 问 道 ， 因 为 这 一 天 她 已 经 听 过 许多 诗 了 。 


“是 很 长 ，” 白 骑士 说 ,“ 不 过 它 非 常 、 非 常 美 。 不 论 谁 听 到 我 唱 这 首 歌 
是 听 得 热泪 鳃 眶 ， 或 者 是 一 一 ” 


“或 者 是 什么 呀 ? ”爱丽 丝 问 道 ， 因 为 白 骑士 忽然 笋 住 不 言语 了 。 




































































或 者 


























“或 者 是 没有 热泪 僵 眶 ， 你 知道 。 这 首 歌 的 曲名 叫 作 : 《 黑 线 鲤 的 眼睛 》。” 
“ 哦 ， 那 是 一 首 歌 的 曲名 ， 是 吗 ? ”爱丽 丝 问 道 ， 她 试 着 使 自己 感到 有 兴趣 。 
“不 ， 你 不 明白 ，” 白 骑士 说 ， 看 来 有 些 心 烦 的 样子 那 是 人 家 这 么 叫 的 曲名 。 
真正 的 曲名 是 《 老 而 又 老 的 老头 儿 》。?” 

“那么 我 刚才 应 该 说 ，“ 那 首 歌 是 那么 被 人 叫 的 '? ”爱丽 丝 自己 纠正 说 。 


“不 ， 你 不 应 该 这 么 说 。 这 是 另 一 码 事 ! 这 首 歌 人 家 叫 作 《方法 和 手段 》。 不 过 
这 只 不 过 是 人 家 这 样 叫 ， 你 知道 ! ” 


“ 咽 ， 那 么 ， 那 究竟 是 什么 歌 呢 ? ”爱丽 丝 问 道 ， 她 这 一 次 完 完 全 全 给 弄 糊 涂 了 。 


“我 正 是 准备 说 的 呀 ，” 白 骑士 说 道 ,“ 这 首 歌 真正 是 《 坐 在 大 门 上 》， 曲子 是 我 
自己 发 明 的 。” 



































Lewis Carroll 
《爱丽 丝 镜 中 奇遇 记 》， 第 8 章 “ 这 是 我 自己 的 发 明 ” 





























也 该 书 英文 版 〈 书 名 :; Programming Language Pragmatics) 在 2015 年 12 月 已 出 第 4 版 。 一 一 编者 注 





BO 符合 Python 风格 的 对 象 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。1 








Tan Bicking 
pip. virtualenv 和 Paste 等 项 目的 创建 者 

















1 摘自 Paste 的 风格 指南 Chttp//pythonpaste.org/StyleGuide.html) 。 
得 益 于 Python 数据 模型 ， 自 定义 类 型 的 行为 可 以 像 内置 类 型 那样 自然 。 实 现 如 此 自然 的 
行为 ， 靠 的 不 是 继承 ， 而 是 鸭子 类 型 (ducktyping) : 我 们 只 需 按照 预定 行为 实现 对 象 所 
需 的 方法 即 可 。 





前 一 章 分 析 了 很 多 内 置 对 象 的 结构 和 行为 ， 这 一 章 则 自己 定义 类 ， 而 且 让 类 的 行为 跟 真 正 
的 Python 对 象 一 样 。 


这 一 章 接续 第 1 章 ， 说 明 如 何 实现 在 很 多 Python 类 型 中 常见 的 特殊 方法 。 
本 章 包 含 以 下 话题 : 
。 文 持 用 于 生成 对 象 其 他 表示 形式 的 内 置 函数 (如 repr()、bytes()， 等 等 ) 
。 使 用 一 个 类 方法 实现 备 选 构造 方法 
。 扩 展 内 置 的 format() 函数 和 str.format() 方法 使 用 的 格式 微 语言 
。 实现 只 读 属 性 
。 把 对 象 变 为 可 散 列 的 ， 以 便 在 集合 中 及 作为 dict 的 键 使 用 
。 利 用 __slots _ 节省 内 存 
我 们 将 开发 一 个 简单 的 二 维 欧 几 里 得 向 量 类 型 ， 在 这 个 过 程 中 涵盖 上 述 全 部 话题 。 
在 实现 这 个 类 型 的 中 间 阶 段 ， 我 们 会 讨论 两 个 概念 : 
。 如 何以 及 何 时 使 用 @classmethod 和 @staticmethod 装饰 器 
。 Python 的 私有 属性 和 受 保护 属性 的 用 法 、 约 定 和 局 限 
我 们 从 对 象 表示 形式 函数 开始 。 












































9.1 ”对象 表示 形式 


门面 向 对 象 的 语言 至 少 都 有 一 种 获取 对 象 的 字符 串 表示 形式 的 标准 方式 。Python 提供 了 
两 种 方式 。 








repr() 
以 便于 开发 者 理解 的 方式 返回 对 象 的 字符 串 表 示 形 式 。 
str() 
以 便于 用 户 理 解 的 方式 返回 对 象 的 字符 串 表 示 形 式 。 
我 们 要 实现 _repr__ 和 __str__ 特殊 方法 ， 为 repr() 和 str() 提供 文 
寺 。 


















































为 了 给 对 象 提供 其 他 的 表示 形式 ， 还 会 用 到 另外 两 个 特殊 方法 : __bytes__ 和 

__format__. _ bytes 方法 与 ”str _ ”方法 类 似 : bytes() 函数 调用 它 获取 对 象 的 
字 节 序列 表示 形式 。 而 format 方法 会 被 内 置 的 format() 函数 和 str.format() 方 

法 调用 ， 使 用 特殊 的 格式 代码 显示 对 象 的 字符 串 表 示 形 式 。 我 们 将 在 下 一 个 示例 中 讨论 
_ bytes_ 方法， 随后 再 讨论 _format_ ”方法 。 




















7 如 果 你 是 从 Python 2 转 过 来 的 ， 记 住 ， 在 Python3 F, _ repr. _ str 
_format _ 都 必须 返回 Unicode 字符 串 (str 类 型 ) 。 只 有 _ bytes FEM 
返回 字 节 序列 (bytes 类 型 ) 。 











9.2 ”再 谈 问 量 类 

为 了 说 明 用 于 生成 对 象 表示 形式 的 众多 方法 ， 我 们 将 使 用 一 个 Vector2d 类 ， 它 与 第 1 章 
中 的 类 似 。 这 一 节 和 接 下 来 的 几 节 会 不 断 实 现 这 个 类 。 我 们 期 望 Vector2d 实例 具有 的 基 
本 行为 如 示例 9-1 所 示 。 


示例 9-1 Vector2d 实例 有 多 种 表示 形式 























>>> v1 = Vector2d(3, 4) 

>>> print(v1.x, vi.y) © 

3.0 4.0 

>> x, y=avl @ 

>>> X, y 

(3.0, 4.0) 

>> v1 © 

Vector2d(3.0, 4.0) 

>>> vi_clone = eval(repr(v1)) @ 
>>> v1 == vi_clone © 


True 

>>> print(v1) QO 

(3.0, 4.0) 

>>> octets = bytes(v1) @ 
>>> octets 


b'd\\x00\\x00\\x00\\x80\\x00\\x00\\xO8@\\x80\\x00\\xO0\\x80\\x00\\x90\\x12E@' 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector2d(@, 0)) © 














Q Vector2d 实例 的 分 量 可 以 直接 通过 属性 访问 〈 无 需 调 用 读 值 方法 ) 。 
© Vector2d 实例 可 以 拆 包 成 变量 元 组 。 
© repr 函数 调用 Vector2d 实例 ， 得 到 的 结果 类 似 于 构建 实例 的 源码 。 


area a eval 函数 ， 表 明 repr 函数 调用 Vector2d 实例 得 到 的 是 对 构造 方法 的 准确 










































































?这 里 使 用 eval 函数 克隆 对 象 是 为 了 说 明 repr 方法 。 使 | 




















copy. copy 函数 克隆 实例 更 安全 也 更 快速 。 








O Vector2d 实例 支持 使 用 == 比较 ; 这 样 便于 测试 。 

O print HAA str 函数 ， 对 Vector2d 来 襄 ， 输 出 的 是 一 个 有 序 对 。 
@ bytes 函数 会 调用 _bytes 方法 ， 生 成 实例 的 三 进 制 表示 形式 。 

QO abs 函数 会 调用 _abs 方法， 返回 Vector2d 实例 的 模 。 


© bool 函数 会 调用 bool 方法， 如果 Vector2d 实例 的 模 为 零 ， 返 回 False, FU 
返回 True。 















































示例 9-1 中 的 Vector2d 类 在 vector2d v0.py 文件 中 实现 〈 见 示例 9-2) 。 这 段 代 码 基于 
示例 1-2， 除 了 == 之 外 〈 在 测试 中 用 得 到 ) ， 其 他 中 缀 运算 符 将 在 第 13 章 实 现 。 现 

Æ, Vector2d 用 到 了 几 个 特殊 方法 ， 这 些 方法 提供 的 操作 是 Python 高 手 期 待 设计 良好 的 
对 象 所 提供 的 。 


示例 9-2 vector2d vO.py: 目前 定义 的 都 是 特殊 方法 






























































from array import array 
import math 


class Vector2d : 
typecode = 'd' @ 


def _ init__(self, x, y): 
self.x = float(x) @ 
self.y = float(y) 


def _ iter _ (self): 
return (i for i in (self.x, self.y)) © 


def _repr_ (self): 
class_name = type(self). name _ 
return '{}({!r}, {!r})'.format(class name, *self) @ 


def _str (self): 
return str(tuple(self)) © 


def _ bytes_ (self): 
return (bytes([ord(self.typecode)]) + © 
bytes(array(self.typecode, self))) @ 


def _eq_ (self, other): 
return tuple(self) == tuple(other) © 


def _abs_ (self): 
return math.hypot(self.x, self.y) © 


def _ bool_ (self): 
return bool(abs(self)) 四 

















@ typecode 是 类 属性 ， 在 Vector2d 实例 和 字 节 序列 之 间 转 换 时 使 用 。 


Ove init “方法 中 把 Aly 转换 成 浮 点 数 ， 尽 早 捕获 错误 ， 以 防 调用 Vector2d R 
数 时 传 入 不 当 参 数 。 


定义 _iter_ 方法 ， 把 Vector2d 实例 变 成 可 迭代 的 对 象 ， 这 样 才 能 拆 包 〔 例 
如 ，x，y = my_vector) 。 这 个 方法 的 实现 方式 很 简单 ， 直 接 调用 生成 器 表达 式 一 个 接 
一 个 产 出 分 量 。3 









































3 这 一 行 也 可 以 写成 yield self.x; yield.self.y。 第 14 章 会 进一步 讨论 _ iter_ _ 特殊 方法 、 生 成 器 表达 式 和 
yield 关键 字 。 








O repr DEEH {!r} 获取 各 个 分 量 的 表示 形式 ， 然 后 插值 ， 构 成 一 个 字符 串 ; 
为 Vector2d 实例 是 可 迭代 的 对 象 ， 所 以 *self 会 把 x 和 y 分 量 提供 给 format 函数 。 


O 从 可 和 迭代 的 Vector2d 实例 中 可 以 轻松 地 得 到 一 个 元 组 ， 显 示 为 一 个 有 序 对 。 
O 为 了 生成 字 节 序列 ， 我 们 把 typecode 转换 成 字 节 序列 ， 然 后 .…….…… 
@@ WEAR Vector2d 实例 ， 得 到 一 个 数组 ， 再 把 数组 转换 成 字 节 序列 。 


O 为 了 快速 比较 所 有 分 量 ， 在 操作 数 中 构建 元 组 。 对 Vector2d 实例 来 说 ， 可 以 这 样 
做 ， 不 过 仍 有 问题 。 参 见 下 面 的 警告 。 


O 模 是 x 和 yy 分量 构成 的 直角 三 角形 的 斜 边 长 。 
bool 方法 使 用 abs(self) 计算 模 ， 然 后 把 结果 转换 成 布尔 值 ， 因 此 ，68.6 是 


False， 非 零 值 是 True。 












































Be 示例 9-2 PAJ eq__ 方法 ， 在 两 个 操作 数 都 是 Vector2d 实例 时 可 用 ， 不 
过 拿 Vector2d 实例 与 其 他 具有 相同 数值 的 可 迭代 对 象 相 比 ， 结 果 也 是 True (如 
Vector(3, 4) == [3，4]) 。 这 个 行为 可 以 视 作 特性 ， 也 可 以 视 作 缺陷 。 第 13 章 
讲 到 运算 符 重 载 时 才能 进一步 讨论 。 


我 们 已 经 定义 了 很 多 基本 方法 ， 但 是 显然 少 了 一 个 操作 : 使 用 bytes() 函数 生成 的 二 进 
制 表示 形式 重建 Vector2d 实例 。 




















93 备 选 构造 方法 


我 们 可 以 把 Vector2d 实例 转换 成 字 节 序列 了 ; 同 理 ， 也 应 该 能 从 字 节 序列 转换 成 
Vector2d 实例 。 在 标准 库 中 探索 一 番 之 后 ， 我 们 发 现 array.array 有 个 类 方法 
.frombytes (2.9.1 节 介 > 正好 符合 需求 。 下 面 在 vector2d_vl.py【〈 见 示例 9-3) 中 为 
Vector2d 定义 一 个 同名 类 方法 。 















































示例 9-3 vector2d_vl.py 的 一 部 分 : 这 段 代 码 只 列 出 了 frombytes 类 方法 ， 要 添加 
到 vector2d_ v0.py《〈 见 示例 9-2) 中 定义 的 Vector2d 类 中 





@classmethod @ 
def frombytes(cls, octets): @ 
typecode = chr(octets[@]) © 


memv = memoryview(octets[1:]).cast(typecode) @ 
return cls(*memv) 








O 类 方法 使 用 classmethod 装饰 器 修饰 。 

O 不 用 传 入 self 2%; 相反， 要 通过 cls 传 入 类 本 身 。 

O 从 第 一 个 字 节 中 读 取 typecode. 

O 使 用 传 入 的 octets 字 节 序列 创建 一 个 memoryview， 然 后 使 用 typecode 转换 。4 











49.9.2 节 简 单 介绍 过 memoryview， 说 明了 它 的 .cast 方法 。 











O 拆 包 转换 后 的 memoryview， 得 到 构造 方法 所 需 的 一 对 参数 。 
我 们 用 的 classmethod 装饰 器 是 Python 专用 的 ， 下 面 讲解 一 下 。 





9.4 classmethod-'5 staticmethod 


Python 教程 没有 提 到 classmethod 装饰 器 ， 也 没有 提 到 staticmethod。 学 过 Java 面向 
对 象 编程 的 人 可 能 觉得 奇怪 ， 为 什么 Python 提供 两 个 这 样 的 装饰 器 ， 而 不 是 只 提供 一 


个 ? 














先 来 看 classmethod。 示 例 9-3 展示 了 它 的 用 法 : 定义 操作 类 ， 而 不 是 操作 实例 的 方 








法 。classmethod 改变 了 调用 方法 的 方式 ， 因 此 类 方法 的 第 一 个 参数 是 类 本 身 ， 而 不 是 








实例 。classmethod 最 常见 的 用 途 是 定义 备 选 构造 方法 ， 例 如 示例 9-3 中 的 
frombytes。 注 意 ，frombytes 的 最 后 一 行使 用 cls 参数 构建 了 一 个 新 实例 ， 即 
cls(*memv)。 按 照 约定 ， 类 方法 的 第 一 个 参数 名 为 cls (但 是 Python 不 介意 具体 怎么 命 
A) y 


staticmethod 装饰 器 也 会 改变 方法 的 调用 方式 ， 但 是 第 一 个 参数 不 是 特殊 的 值 。 其 实 





























# 


态 方法 就 是 普通 的 函数 ， 只 是 碰巧 在 类 的 定义 体 中 ， 而 不 是 在 模块 层 定义 。 POAN 








classmethod 和 staticmethod 的 行为 做 了 对 比 。 


示例 9-4 比较 classmethod 和 staticmethod 的 行为 





>>> class Demo: 


@classmethod 

def klassmeth(*args): 
return args # O 

@staticmethod 

def statmeth(*args): 
return args # @ 


>>> Demo.klassmeth() # © 


(<class ' main .Demo'>,) 
>>> Demo.klassmeth('spam' ) 
(<class ' main .Demo'>, 'spam') 


>>> Demo.statmeth() #@ 
O 


>>> Demo.statmeth('spam' ) 
('spam',) 





@ klassmeth 返回 全 部 位 置 参数 。 


© statmeth 也 是 。 





O 不 管 怎 样 调 用 Demo.klassmeth， 它 的 第 一 个 参数 始终 是 Demo 类 。 


@ Demo.statmeth 的 行为 与 普通 的 函数 相似 。 











iN classmethod 装饰 器 非常 有 用 ， 但 是 我 从 未 见 过 不 得 不 用 staticmethod 的 
情况 。 如 采 电 定义 不 需要 与 闫 交互 的 函数 ， 那么 在 模块 中 定义 就 好 了 。 有 有 时， 函数 虽 
然 从 不 处 理 类 ， 但 是 函数 的 功能 与 类 紧密 相关 ， 因此 想 把 它 放 在 近 处 处 。 即 便 如 此 ， 在 









































同一 模块 中 的 类 前 面 或 后 面 定义 函数 也 就 行 了 。。 











5 本 书 的 技术 审 校 之 一 Leonardo Rochael 不 同意 我 对 staticmethod 的 见解 ， 作 为 反驳 ， 他 推荐 阅读 Julien Danjou 写 的 





一 篇 博客 文章 ， 题 为 “The Definitive Guide on How to Use Static, Class or Abstract Methods in 
Python” Chttps://julien.danjou.info/blog/2013/guide-python-static-class-abstract-methods) > Danjou 
荐 阅读 。 但 是 ， 我 对 staticmethod 的 观点 依然 不 变 。 请 读者 自 辨 。 

















的 这 篇 文 








章 写 得 很 好 ， 我 推 











现在 ， 我 们 对 classmethod 的 作用 已 经 有 所 了 解 ( 而 且 知 道 staticmethod 不 是 特别 有 


FAD ， 下 面 继续 讨论 对 象 的 表示 形式 ， 说 明 如 何 支 持 格式 化 输出 。 


9.5 格式 化 显示 


内 置 的 format() 函数 和 str.format() 方法 把 各 个 类 型 的 格式 化 方式 委托 给 相应 的 
.__format__(format_spec) 方法 。format_spec 是 格式 说 明 符 ， 它 是 : 








e format(my_obj, format_spec) 的 第 二 个 参数 ， 或 者 
e str.format() 方法 的 格式 字符 串 ，{} 里 代 换 字段 中 冒号 后 面 的 部 分 
例如 : 








>>> brl = 1/2.43 # BRL 到 UsD 的 货币 兑换 比价 

>>> brl 

@.4115226337448559 

>>> format(br1, '@.4f') # © 

"@.4115' 

>>> '1 BRL = {rate:@.2f} USD'.format(rate=br1) # @ 
"1 BRL = 0.41 USD' 


O 格式 说 明 符 是 '8.4f ' 。 


四 格式 说 明 符 是 '@.2f'。 代 换 字 段 中 的 'rate' 子 串 是 字段 名 称 ， 与 格式 说 明 符 无 关 ， 
但 是 它 决 定 把 .format() 的 哪个 参数 传 给 代 换 字段 。 


第 2 条 标注 指出 了 一 个 重要 知识 点 : '{O.mass:5.3e}' 这 样 的 格式 字符 串 其 实 包含 两 部 
分 ， 冒 号 左边 的 "8.mass' 在 代 换 字段 句法 中 是 字段 名 ， 冒 号 后 面 的 "5.3e' 是 格式 说 明 
符 。 格 式 谨 明 符 使 用 的 表示 法 叫 格 式 规范 微 语言 (“Format Specification Mini- 

Language”, https://docs.python.org/3/library/string.html#formatspec) 。 























AI 如 果 你 对 format() 和 str. format() 都 感到 陌生 ， 根 据 我 的 教学 经 验 ， 最 好 
先 学 format() 函数 ， 因 为 它 只 使 用 格式 规范 微 语 言 。 学 会 这 些 表示 法 之 后 ， 再 阅读 
格式 字符 串 句 法 (“Format String 

Syntax”, https://docs.python.org/3/library/string.html#formatspec) ， 学 习 str.format() 
方法 使 用 的 {:} 代 换 字段 表示 法 〈 包 含 转换 标志 !s、!r 和 1a) 。 


格式 规范 微 语言 为 一 些 内 置 类 型 提供 了 专用 的 表示 代码 。 比 如 ，b 和 x 分 别 表示 二 进 制 和 
十 六 进 制 的 int 类 型 ，f 表示 小 数 形式 的 float 类 型 ， 而 % 表示 百分数 形式 : 
































>>> format(42, 'b') 
"101010" 


>>> format(2/3, '.1%') 
"66.7%' 








格式 规范 微 语言 是 可 扩展 的 ， 因 为 各 个 类 可 以 自行 决定 如 何 解释 format_spec 参数 。 例 
W, datetime 模块 中 的 类 ， 它 们 的 format ”方法 使 用 的 格式 代码 与 strftime() K 








数 一 样 。 下 面 是 内 置 的 format() 函数 和 str.format() 方法 的 几 个 示例 : 





from datetime import datetime 
now = datetime.now() 
format(now, '%H:%M:%S' ) 


:49:65 
"It's now {:%1:%M %p}".format (now) 
"s now 06:49 PM" 

















如 果 类 没有 定义 format _ 方 法， 从 object 继承 的 方法 会 返回 str(my_object). R 
们 为 Vector2d BH MS _str 方法 ， 因 此 可 以 这 样 做 : 














>>> v1 = Vector2d(3, 4) 
>>> format(v1) 
'(3.0, 4.0)' 











然而 ， 如 果 传 入 格式 说 明 符 ，object. format__ 方法 会 抛 出 TypeError: 


>>> format(v1, '.3f') 
Traceback (most recent call last): 


TypeError: non-empty format string passed to object. format__ 

















我 们 将 实现 自己 的 微 语言 来 解决 这 个 问题 。 首 先 ， 假 设 用 户 提供 的 格式 说 明 符 是 用 于 格式 
化 向 量 中 各 个 浮 点 数 分 量 的 。 我 们 想 达 到 的 效果 是 : 




















>>> v1 = Vector2d(3, 4) 
>>> format(v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2f') 
"(3.00, 4.00)' 

>>> format(v1, '.3e') 
'(3.000e+00, 4.000e+00) ' 











实现 这 种 输出 的 “format_ ”方法 如 示例 9-5 所 示 。 





示例 9-$ Vector2d. format _ 方法 , 第 1 版 


# 在 Vector2d 类 中 定义 





def format (self, fmt_spec=''): 


components = (format(c, fmt spec) for c in self) # © 
return '({}, {})'.format(*components) # @ 








@ 使 用 内 置 的 format 函数 把 fmt_spec 应 用 到 向 量 的 各 个 分 量 上 ， 构 建 一 个 可 迭代 的 格 
式 化 字符 串 。 


O 把 格式 化 字符 串 代 入 公式 '(x，y)' 中 。 
下 面 要 在 微 语言 中 添加 一 个 自 定义 的 格式 代码 : 如 果 格 式 说 明 符 以 'p' 结尾 ， 那 么 在 极 
































Oe He 





标 中 显示 向 量 ， 即 <r，6 >， 其 中 r 是 模 ，8 (西塔 是 弧度 ; 其 他 部 分 ('p' 之 前 的 
部 分 ) 像 往常 那样 解释 。 








a 为 自 定义 的 格式 代码 选择 字母 时 ， 我 会 避免 使 用 其 他 类 型 用 过 的 字母 。 在 格式 
规范 微 语言 Chttps://docs.python.org/3/library/string.html#formatspec) 中 我 们 看 到 ， 整 
数 使 用 的 代码 有 'bcdoxXxn'， 浮 点 数 使 用 的 代码 有 'eEfFgGn%'， 字 符 串 使 用 的 代码 
有 's'。 因 此 ， 我 为 极 坐标 选 的 代码 是 'p' 。 各 个 类 使 用 自己 的 方式 解释 格式 代码 ， 
在 自 定义 的 格式 代码 中 重复 使 用 代码 字母 不 会 出 错 ， 但 是 可 能 会 让 用 户 困惑 。 


对 极 坐 标 来 说 ， 我 们 已 经 定义 了 计算 模 的 _abs__ 方法 ， 因 此 还 要 定义 一 个 简单 的 
angle 方法 ， 使 用 math.atan2() 函数 计算 角度 。angle 方法 的 代码 如 下 : 























# 在 Vector2d 类 中 定义 





def angle(self): 
return math.atan2(self.y, self.x) 




















这 样 便 可 以 增强 ”format _ 方法 ， 计 算 极 坐标 ， 如 示例 9-6 所 示 。 








示例 9-6 Vector2d. format _ 方法 ， 第 2 版， 现在 能 计算 极 坐 标 了 





def _ format (self, fmt_spec=''): 
if fmt_spec.endswith('p'): © 
fmt_spec = fmt_spec[:-1] @ 
coords = (abs(self), self.angle()) © 
outer_fmt = '<{}, {}>' © 
else: 
coords = self @ 
outer_fmt = '({}, {})' © 
components = (format(c, fmt_spec) for c in coords) @ 
return outer _fmt.format(*components) © 











@ 如 果 格 式 代码 以 'p' 结尾 ， 使 用 极 坐标 。 

© 从 fmt_spec 中 删除 'p' EZR. 

O 构建 一 个 元 组 ， 表 示 极 坐标 : (magnitude, angle). 

O 把 外 层 格 式 设 为 一 对 尖 括 号 。 

O 如 果 不 以 'p ' 结尾 ， 使 用 self 的 x Aly 分 量 构建 直角 坐标 。 
O 把 外 层 格式 设 为 一 对 圆 括号 。 

O 使 用 各 个 分 量 生成 可 迭代 的 对 象 ， 构 成 格式 化 字符 
O 把 格式 化 字符 串 代 入 外 层 格式 。 

















Ud 
o 








示例 9-6 中 的 代码 得 到 的 结果 如 下 : 





>>> 
"<1 
>>> 
"<1 
>>> 
'<1 


format(Vector2d(1, 1), 'p') 
.4142135623730951, @.7853981633974483>' 
format(Vector2d(1, 1), '.3ep') 
.414e+00, 7.854e-01>' 
format(Vector2d(1, 1), '@.5fp') 
-41421, @.7854@>' 





如 本 节 所 示 ， 为 用 户 自 定 义 的 类 型 扩展 格式 规范 微 语言 并 不 难 。 


下 面 换个 话题 ， 它 不 仅 事 关 对 象 的 外 观 : 我 们 将 把 Vector2d 变 成 可 散 列 的 ， 这 样 便 可 以 
构建 向 量 集合 ， 或 者 把 向 量 当 作 dict 的 键 使 用 。 不 过 在 此 之 前 ， 必 须 让 向 量 不 可 变 。 详 






































情 参 见 下 一 节 。 





9.6 ”可 散 列 的 Vector2d 
按照 定义 ， 目 前 Vector2d 实例 是 不 可 散 列 的 ， 因 此 不 能 放 入 集合 (set) H: 








>>> v1 = Vector2d(3, 4) 
>>> hash(v1) 
Traceback (most recent call last): 


TypeError: unhashable type: “Vector2d 
>>> set([v1]) 


Traceback (most recent call last): 


TypeError: unhashable type: “Vector2d 

















为 了 把 Vector2d 实例 变 成 可 散 列 的 ， 必 须 使 用 hash _ 方法 (还 需要 eq _ 方法 ， 
前 面 已 经 实现 了 ) 。 此 外 ， 还 要 让 向 量 不 可 变 ， 详情 参见 第 3 章 的 附注 栏 “什么 是 可 散 列 
的 数据 类 型 ”。 


目前 ， 我 们 可 以 为 分 量 赋 新 值 ， 如 v1.x = 7，Vector2d 类 的 代码 并 不 阻止 这 么 做 。 我 
们 想 要 的 行为 是 这 样 的 : 


























>>> v1.x, vi.y 

(3.0, 4.0) 

>>> v1l.x = 7 

Traceback (most recent call last): 


AttributeError: can't set attribute 














为 此 ， 我 们 要 把 x 和 y 分 量 设 为 只 读 特 性 ， 如 示例 9-7 所 示 。 


示例 9-7 vector2d v3.py: 这 里 只 给 出 了 让 Vector2d 不 可 变 的 代码 ， 完 整 的 代码 清 
单 在 示例 9-9 中 











class Vector2d: 
typecode = ‘d' 


def _ init__(self, x, y): 
self. x = float(x) © 
self. y = float(y) 


@property @ 
def x(self): © 
return self. x @ 


@property © 
def y(self): 
return self. y 


def _ iter _ (self): 
return (i for i in (self.x, self.y)) © 


























# 下 面 是 其 他 方法 〈 排 版 需要 ， 省 略 了 ) 




















人 (尾部 没有 下 划 线 ， 或 者 有 一 个 下 划 线 ) ， 把 属性 标记 为 私有 
和。 























5 根据 本 章 开 头 引用 的 那 句 话 ， 这 不 符合 Ian Bicking 的 建议 。 私 有 属性 的 优 缺 点 参见 后 面 的 9.7 节 。 

















© @property 装饰 器 把 读 值 方法 标记 为 特性 。 
O 读 值 方法 与 公开 属性 同名 ， 都 是 x. 

O 直接 返回 self._ x. 

O 以 同样 的 方式 处 理 y 特性 。 


O 需要 读 取 x 和 y 分 量 的 方法 可 以 保持 不 变 ， 通 过 self.x 和 self.y 读 取 公 开 特 性 ， 
不 必 读 取 私 有 属性 ， 因 此 上 述 代码 清单 省 略 了 这 个 类 的 其 他 代码 。 
































` Vector.x 和 Vector.y 是 只 读 特性 。 读 写 特性 在 第 19 章 讨 论 ， 届 时 会 深入 说 
明 @property 装饰 器 。 


注意 ， 我 们 让 这 些 向 量 不 可 变 是 有 原因 的 ， 因 为 这 样 才 能 实现 hash__ 方法。 这 个 方法 
应 该 返回 一 个 整数 ， 理 想 情 况 下 还 要 考虑 对 象 属性 的 散 列 值 C eq ”方法 也 要 使 用 ) ， 
因为 相等 的 对 象 应 该 具有 相同 的 散 列 值 。 根 据 特殊 方法 hash__ 的 文档 
(https://docs.python.org/3/reference/datamodel.html) ， 最 好 使 用 位 运算 符 异 或 〈^) 混合 各 
oe eee Vector2d. hash _ 方法 的 代码 十 分 简单 ， 如 示例 9- 
8 ATAN o 






























































示例 9-8 vector2d v3.py: 实现 ”hash_ ”方法 





# 在 Vector2d 类 中 定义 





def _hash (self): 
return hash(self.x) ^ hash(self.y) 














添加 __hash__ 方法 之 后 ， 向 量变 成 可 散 列 的 了 : 





>>> v1 = Vector2d(3, 4) 
>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 


(7, 384307168202284039) 
>>> set([v1, v2]) 
{Vector2d(3.1, 4.2), Vector2d(3.0, 4.0)} 














~ 要 想 创 建 可 散 列 的 类 型 ， 不 一 定 要 实现 特性 ， 也 不 一 定 要 保护 实例 属性 。 只 需 
正确 地 实现 _hash _ 和 _ eq _ 方法 即 可 。 但 是 ， 实 例 的 散 列 值 绝 不 应 该 变化 ， 
此 我 们 借 机 提 到 了 只 读 特 性 。 


如 果 定 义 的 类 型 有 标量 数值 ， 可 能 还 要 实现 int M float__ 方法 (分 别 被 int() 
和 float() 构造 函数 调用 ) ， 以 便 在 某 些 情况 下 用 于 强制 转换 类 型 。 此 外 ， 还 有 用 于 文 
持 内 置 的 complex() 构造 函数 的 __ complex _ 方法 。Vector2d 或 许 应 该 提供 
__complex_ ”方法 ， 不 过 我 把 它 留 作 练 习 给 读者 。 


我 们 一 直 在 定义 Vector2d 类 ， 也 列 出 了 很 多 代码 片段 ， 示 例 9-9 是 整理 后 的 完整 代码 清 
单 ， 保 存在 vector2d_v3.py 文件 中 ， 包 含 开 发 时 我 编写 的 全 部 doctest。 


示例 9-9 vector2d v3.py: 完整 版 

























































































A two-dimensional vector class 


>>> v1 = Vector2d(3, 4) 

>>> print(v1.x, vi.y) 

3.0 4.0 

>>> X, y=vi 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector2d(3.0, 4.0) 

>>> vi_clone = eval(repr(v1)) 

>>> v1 == v1_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 

b ' d\ \ XOA \ \ XOA \ \ XOA \ \ XOA \ \ XBA \ XBA \ XABA \ XBA \ \ XBA \ \XAA\ XAO \ \ XAO \xOO\ \x100' 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector2d(0, @)) 
(True, False) 


Test of ``.frombytes()`` class method: 


>>> vi_clone = Vector2d.frombytes(bytes(v1)) 
>>> vi_clone 

Vector2d(3.0, 4.0) 

>>> v1 == vi_clone 

True 


Tests of ``format()`` with Cartesian coordinates: 


>>> format(v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2f') 
'(3.00, 4.00)' 





>>> format(v1, '.3e') 
'(3.000e+00, 4.000e+00) ' 


Tests of the ``angle`` method: : 


>>> Vector2d(@, @).angle() 

0.0 

>>> Vector2d(1, @).angle() 

0.0 

>>> epsilon = 10**-8 

>>> abs(Vector2d(@, 1).angle() - math.pi/2) < epsilon 
True 

>>> abs(Vector2d(1, 1).angle() - math.pi/4) < epsilon 
True 


Tests of ``format()`` with polar coordinates: 


>>> format(Vector2d(1, 1), 'p') # doctest:+ELLIPSIS 
"<1.414213..., @.785398...>' 

>>> format(Vector2d(1, 1), '.3ep') 

"<1.414e+00, 7.854e-01>' 

>>> format(Vector2d(1, 1), '@.5fp') 

"<1.41421, @.7854@>' 


Tests of ‘x and ~y read-only properties: 


>>> v1.x, vi.y 

(3.0, 4.0) 

>>> v1.x = 123 

Traceback (most recent call last): 


AttributeError: can't set attribute 


Tests of hashing: 


>>> v1 = Vector2d(3, 4) 

>>> v2 = Vector2d(3.1, 4.2) 
>>> hash(v1), hash(v2) 

(7, 384307168202284039 ) 

>>> len(set([v1, v2])) 

2 


from array import array 
import math 


class Vector2d: 
typecode = ‘d' 


def _ init__(self, x, y): 
self. x = float(x) 
self. y = float(y) 


@property 
def x(self): 





return self. x 


@property 
def y(self): 
return self. y 


def _ iter _ (self): 
return (i for i in (self.x, self.y)) 


def _ repr__ (self): 
class_name = type(self). name__ 


return '{}({!r}, {!r})'.format(class_name, *self) 


def _str (self): 


return str(tuple(self)) 


def _ bytes __ (self): 


return (bytes([ord(self.typecode)]) + 
bytes(array(self.typecode, self))) 


def _eq_ (self, other): 


return tuple(self) == tuple(other) 
def _ hash__ (self): 
return hash(self.x) ^ hash(self.y) 
def _abs_ (self): 
return math.hypot(self.x, self.y) 
def _ bool_ (self): 
return bool(abs(self)) 
def angle(self): 
return math.atan2(self.y, self.x) 


def _ format (self, fmt_spec=''): 

if fmt_spec.endswith('p'): 
fmt_spec = fmt_spec[:-1] 

coords = (abs(self), self.angle()) 
outer fmt = '<{}, {}>' 

else: 
coords = self 
outer_fmt = '({}, {})' 


components = (format(c, fmt_spec) for c in coords) 


return outer_fmt.format(*components) 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[@]) 
memv 
return cls(*memv) 


memoryview(octets[1:]).cast(typecode) 











上 





小 结 一 下 ， 前 两 节 说 明了 一 些 特殊 方法 ， 
的 。 当 然 ， 如 果 你 的 应 用 用 不 到 ， 就 没 必 
否 符合 Python 风格 。 

















到 功能 完善 的 对 象 ， 这 些 方法 可 能 是 必 各 
实现 这 些 方法 。 客 户 并 不 关心 你 的 对 象 是 


y 














示例 9-9 中 定义 的 Vector2d 类 只 是 为 了 教学 ， 我 们 为 它 定 义 了 许多 与 对 象 表示 形式 有 关 











的 特殊 方法 。 不 是 每 个 用 户 自 定义 的 类 都 要 这 样 做 。 


下 一 节 暂 时 不 继续 定义 Vector2d 类 了 ， 我 们 将 讨论 Python 对 私有 属性 《〈 带 两 个 下 划 线 
前 级 的 属性 ， 如 self. x) 的 设计 方式 及 其 缺点 。 




















9.7 ”了 Python 的 私有 属性 和 “ 受 保护 的 ”属性 


Python 不 能 像 Java 那样 使 用 private 修饰 符 创建 私有 属性 ， 但 是 Python 有 个 简单 的 机 
制 ， 能 避免 子 类 意外 履 盖 “私有 ”属性 。 


举 个 例子 。 有 人 编写 了 一 个 名 为 Dog 的 类 ， 这 个 类 的 内 部 用 到 了 mood 实例 属性 ， 但 是 没 
有 将 其 开放 。 现 在 ， 你 创建 了 Dog 类 的 子 类 : Beagle。 如 果 你 在 毫 不 知情 的 情况 下 又 创 
建 了 名 为 mood 的 实例 属性 ， 那 么 在 继承 的 方法 中 就 会 把 Dog 类 的 mood 属性 履 盖 掉 。 这 
是 个 难以 调试 的 问题 。 

为 了 避免 这 种 情况 ， 如 果 以 __mood 的 形式 (两 个 前 导 下 划 线 ， 尾 部 没有 或 最 多 有 一 个 下 
划 线 ) 命名 实例 属性 ，Python 会 把 属性 名 存 入 实例 的 __dict__ 属性 中 ， 而 且 会 在 前 面 加 
上 一 个 下 划 线 和 类 名 。 因 此 ， 对 Dog 类 来 说 ， __ mood 会 变 成 _Dog mood; 对 Beagle 
类 来 说 ， 会 变 成 _Beagle mood。 这 个 语言 特性 叫 名 称 改写 (name mangling) 。 

示例 9-10 以 示例 9-7 中 定义 的 Vector2d 类 为 例 来 说 明 名 称 改写 。 


示例 9-10 私有 属性 的 名 称 会 被 "改写 "， 在 前 面 加 上 下 划 线 和 类 名 








































































































>>> v1 = Vector2d(3, 4) 
>>> v1. dict__ 


{'_Vector2d_y': 4.0, ‘'_Vector2d_x': 3.0} 
>>> v1. Vector2d x 
3.0 








名 称 改写 是 一 种 安全 措施 ， 不 能 保证 万 无 一 失 : 它 的 目的 是 避免 意外 访问 ， 不 能 防止 故意 
做 错 事 (图 9-1 也 是 一 种 保护 装置 ) 。 























a A a 行 所 示 ， 只 要 知道 改写 私有 属性 名 的 机 制 ， 任 何人 都 能 直接 读 取 
私有 属 司 试 和 序列 化 倒是 有 有 用。 此外， 只 要 编写 v1._ Vector x = 7 这 样 的 
代码 ， 就 能 轻松 地 为 Vector2d 实例 的 私有 分 量 直 接 赋值 。 如 果真 在 生产 环境 中 这 么 做 
了 ， 出 问题 时 可 别 抱怨 。 


不 是 所 有 Python 程序 员 都 喜欢 名 称 改 写 功 能 ， 也 不 是 所 有 人 都 喜欢 self. x 这 种 不 对 
称 的 名 称 。 有 些 人 不 喜欢 这 种 句法 ， 他 们 约定 使 用 一 个 下 划 线 前 缓 编写" 受 保 护 ” 的 属性 
《如 self._x) 。 批 评 使 用 两 个 下 划 线 这 种 改写 机 制 的 人 认为 ， 应 该 使 用 命名 约定 来 避 
免 意 外 履 盖 属性 。 本 章 开 头 引 用 了 多 产 的 Ian Bicking 的 一 句 话 ， 那 句 话 的 完整 表述 如 下 : 


绝对 不 要 使 用 两 个 前 导 下 划 线 ， 这 是 很 烦人 的 自私 行为 。 如 果 担 心 名 称 冲 突 ， 应 该 明 
确 使 用 一 种 名 称 改写 方式 (如 _MyThing blahblah) 。 这 其 实 与 使 用 双 下 划 线 一 
样 ， 不 过 自己 定 的 规则 比 双 下 划 线 易于 理解 。” 
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|7 


=H 


H Paste 的 风格 指南 Chttp//pythonpaste.org/StyleGuide.html) 。 








Python 解释 器 不 会 对 使 用 单个 下 划 线 的 属性 名 做 特殊 处 理 ， 不 过 这 是 很 多 Python 程序 员 
严格 遵守 的 约定 ， 他 们 不 会 在 类 外 部 访问 这 种 属性 。? 遵守 使 用 一 个 下 划 线 标记 对 象 的 私 
有 属性 很 容易 ， 就 像 遵 守 使 用 全 大 写字 母 编写 常量 那样 容易 。 
























































| 3 不 过 在 模块 中 ， 顶 层 名 称 使 用 一 个 前 导 下 划 线 的 话 ， 的 确 会 有 影响 ， 对 From mymod import * 来 说 ，mymod 中 前 组 
Par 下 划 线 的 名 称 不 会 被 导入 。 然 而 ， 依 旧 可 以 使 用 from mymod import _privatefunc Python 教程 的 6.1 
Bi More on Modules” (https://docs.python.org/3/tutorial/modules.html#more-on-modules) 说 明了 这 一 点 












































Python 文档 的 某 些 角 落 把 使 用 一 个 下 划 线 前 级 标 记 的 属性 称 为 “ 受 保护 的 ”属性 。? 使 用 
self._x 这 种 形式 保护 属性 的 做 法 很 常见 ， 但 是 很 少 有 人 把 这 种 属性 叫 作 “ 受 保护 的 ” 属 
性 。 有 些 人 甚至 将 其 称 为 “私有 ”属性 。 









































| ?gettext 模块 中 就 有 一 个 例子 〈https/docs.python.org/3/library/gettexthtml#gettext.NullTranslations) 。 





总 之 ，Vector2d 的 分 量 都 是 “私有 的 ”， 而 且 Vector2d 实例 都 是 “不 可 变 的 ”。 我 用 了 两 
对 引号 ， 这 是 因为 并 不 能 真正 实现 私有 和 不 可 变 。 


10 如 果 这 个 说 法 让 你 感到 泪 丧 ， 而 且 让 你 觉得 在 这 方面 Python 应 该 向 Java 看 齐 的 话 ， 那 么 别 去 读本 章 的 “杂谈 ”， 我 在 
其 中 对 Java 的 private 修饰 符 的 相对 强度 进行 了 探讨 。 







































































下 面 继 续 定义 Vector2d 类 。 在 最 后 一 节 中 ， 我 们 将 讨论 一 个 特殊 的 属性 〈 不 是 方法 ) ， 
它 会 影响 对 象 的 内 部 存储 ， 对 内 存 用 量 可 能 也 有 重大 影响 ， 不 过 对 对 象 的 公开 接口 没什么 
影响 。 这 个 属性 是 、 slots __ 














98 使 用 slots “类 属性 节省 空间 


默认 情况 下 ，Python 在 各 个 实例 中 名 为 _ dict _ 的 字典 里 存储 实例 属性 。 如 3.9.3 节 所 
述 ， 为 了 使 用 底层 的 散 列 表 提 升 访问 速度 ， 字 典 会 消耗 大 量 内 存 。 如 果 要 处 理 数 百 万 个 属 
性 不 多 的 实例 ， 通 过 slots _ 类 属性 ， 能 节省 大 量 内 存 ， 方 法 是 让 解释 器 在 元 组 中 存 
庄 实 例 属性 ， 而 不 用 字典 。 















































Bex 继承 自 超 类 的 ”slots _ 属性 没有 效果 。Python 只 会 使 用 各 个 类 中 定义 的 
_ slots 属性 。 

定义 ”slots 的 方式 是 ， 创 建 一 个 类 属性 ， 使 用 slots. _ 这 个 名 字 ， 并 把 它 的 值 设 

为 一 个 字符 串 构 成 的 可 和 迭代 对 象 ， 其 中 各 个 元 素 表 示 各 个 实例 属性 。 我 喜欢 使 用 元 组 ， 

为 这 样 定 义 的 slots ”中 所 含 的 信息 不 会 变化 ， 如 示例 9-11 所 示 。 


示例 9-11 vector2d_v3 slots.py: 只 在 Vector2d 类 中 添加 了 _slots_ 属性 



































Class Vector2d : 
_slots = ('_x', '_y') 


typecode = ‘d' 








# 下 面 是 各 个 方法 〈 因 排版 需要 而 省 略 了 ) 
































在 类 中 定义 __slots__ 属 性 的 目的 是 告诉 解释 器 :“ 这 个 类 中 的 所 有 实例 属性 都 在 这 儿 
了 ! "RCE, Python 会 在 各 个 实例 中 使 用 类 似 元 组 的 结构 存储 实例 变量 ， 从 而 避免 使 用 消 
RA dict 属性。 如 果 有 数 百 万 个 实例 同时 活动 ， 这 样 做 能 节省 大 量 内存 。 












































~I 如 果 要 处 理 数 百 万 个 数值 对 象 ， 应 该 使 用 NumPy 数组 (参见 2.9.3 45) 。 

NumPy 数组 能 高 效 使 用 内 存 ， 而 且 提 供 了 高 度 优化 的 数值 处 理 函 数 ， 其 中 很 多 都 一 
我 定义 Vector2d 类 的 目的 是 讨论 特殊 方法 ， 因 为 我 不 太 想 随便 举 
ie 


在 示例 9-12 中 ， 我 们 运行 了 两 个 构建 列表 的 脚本 ， 这 两 个 脚本 都 使 用 列表 推导 创建 10 
000 000 个 Vector2d 实例 。mem test.py 脚本 的 命令 行 参数 是 一 个 模块 的 名 字 ， 模 块 中 定 
义 了 不 同 版 本 的 Vector2d 类 。 第 一 次 运行 使 用 的 是 vector2d _v3.Vector2d 类 (在 示 
Bil 9-7 中 定义 ) ， 第 二 次 运行 使 用 的 是 定义 了 __slots fy 


vector2d_v3_slots.Vector2d 类 。 



































示例 9-12 mem test.py 使 用 指定 模块 (如 vector2d_v3.py) 中 定义 的 Vector2d 类 创 
建 10 000 000 个 实例 


$ time python3 mem_test.py vector2d_v3.py 








Selected Vector2d type: vector2d_v3.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,623,808 

Final RAM usage: 1,558,482,944 


real @m16.721s 
user @m15.568s 
sys @m1.149s 
$ time python3 mem_test.py vector2d_v3_slots.py 
Selected Vector2d type: vector2d_v3_slots.Vector2d 
Creating 10,000,000 Vector2d instances 
Initial RAM usage: 5,718,016 
Final RAM usage: 655,466,496 


real @m13.605s 
user Q@m13.163s 
sys @m@.434s 











如 示例 9-12 所 示 ， 在 10 000 000 个 Vector2d 实例 中 使 用 _ dict _ 属性 时 ，RAM 用 量 
高 达 1.5GB; 而 在 Vector2d 类 中 定义 slots _ 属性 之 后 ，RAM 用 量 降 到 了 655MB- 
此 外 ,定义 了 __slots _ 属 性 的 版 本 运行 了 速度 也 更 快 。 这 个 测试 中 使 用 的 mem testpy 脚 
本 其 实 只 用 于 加 载 一 个 模块 、 检 查 内 存 用 量 和 格式 化 结果 ， 所 用 的 代码 与 本 章 没有 太 大 关 
联 ， 因 此 放 入 附录 A 中 的 示例 A-4 里 。 




















Bey 在 类 中 定义 slots ”属性 之 后 ， 实 例 不 能 再 有 ”slots _ 中 所 列 名 称 之 
外 的 其 他 属性 。 这 只 是 一 个 副作用 ， 不 是 _ slots _ 存在 的 真正 原因 。 不 要 使 用 

Fay 属性 禁止 类 的 用 户 新 增 实例 属性 。 — slots _ 是 用 于 优化 的 ， 不 是 为 了 
约束 程序 员 。 


然而 , “节省 的 内 存 也 可 能 被 再 次 吃 掉 ”: 如 果 把 '__dict__' 这 个 名 称 添加 到 
_ slots 中， 实例 会 在 元 组 中 保存 各 个 实例 的 属性 ， 此 外 还 支持 动态 创建 属性 ， 这 些 
oa _dict HF. 44, fe ' ”dict “' 添加 到 slots _ 中 可 能 完 

背 了 初衷 ， 这 取决 于 各 个 实例 的 静态 属性 和 动态 属性 的 数量 及 其 用 法 。 栖 心 的 优化 甚至 
ali sine 不 糟糕 。 


此 外 ， 还 有 一 个 实例 属性 可 能 需要 注意 ， 即 weakref _ 属 性， 为 了 让 对 象 支持 弱 引 用 
(参见 8.6 节 ) ， 必 须 有 这 个 属性 。 用 户 定义 的 类 中 默认 就 有 __weakref__ 属 性。 可 
是 ， 如 果 类 中 定义 了 __slots _ 属性， 而 且 想 把 实例 作为 弱 引 用 的 目标 ， 那 么 要 把 
__weakref__' 添加 到 ”slots F. 


综 上 ，__slots ”属性 有 些 需要 注意 的 地 方 ， 而 且 不 能 滥用 能 使 用 它 限制 用 户 能 赋 
值 的 属性 。 处 理 列 表 数 据 时 slots 属性 最 有 用 ， ida Rae Ie 以 及 
特大 型 数据 集 。 然 而 ， 如 果 你 经 常 处 理 大 量 数 据 ， 一 定 要 了 解 一 

NumPy Chttp://www.numpy.org) ; 此 外 ， 数 据 分 析 库 pandas el //pandas.pydata.org) 也 
值得 了 解 ， 这 个 库 可 以 处 理 非 数值 数据 ， 而 且 能 导入 / 导出 很 多 不 同 的 列表 数据 格式 。 



















































































































































































”slots _ 的 问题 


caw an 


总 之 ， 如 果 使 用 得 当 ，__slots__ 能 显著 节省 内 存 ， 不 过 有 几 点 要 注意 。 
。 每 个 子 类 都 要 定义 __slots__ 属 性， 因为 解释 器 会 忽略 继承 的 __slots__ 属性。 


























。 实例 只 能 拥有 __slots__ 中 列 出 的 属性 ， 除 非 把 '_dict _' 加 入 _slots 中 
《这 样 做 就 失去 了 节省 内 存 的 功效 ) 。 


e。 如 果 不 把 "weakref “加 入 slots ， 实 例 就 不 能 作为 弱 引 用 的 目标 。 























如 果 你 的 程序 不 用 处 理 数 百 万 个 实例 ， 或 许 不 值得 费劲 去 创建 不 寻常 的 类 ， 那 就 禁止 它 创 
建 动态 属性 或 者 不 支持 弱 引 用 。 与 其 他 优化 措施 一 样 ， 仅 当权 衡 当 下 的 需求 并 仔细 搜集 资 
料 后 证 明确 实 有 必要 时 ， 才 应 该 使 用 __slots_ 属性 。 


本 章 最 后 一 个 话题 讨论 如 何在 实例 和 子 类 中 禾 新 类 属性 。 



























































99 ma eye 


Python 有 个 很 独特 的 特性 : 类 属性 可 用 于 为 实例 属性 提供 默认 值 。Vector2d 中 有 个 
typecode 类 属性 ，_bytes _ ”方法 两 次 用 到 了 它 ， 而 且 都 故意 使 用 self.typecode 读 
取 它 的 值 。 因 为 Vector2d 实例 本 身 没 有 typecode 属性 ， 所 以 self.typecode 默认 获 
取 的 是 Vector2d.typecode 类 属性 的 值 。 


但 是 ， 如 果 为 不 存在 的 实例 属性 赋值 ， 会 新 建 实例 属性 。 假 如 我 们 为 typecode 实例 属性 
赋值 ， 那 么 同名 类 属性 不 受 影响 。 然 而 ， 自 此 之 后 ， 实 例 读 取 的 self.typecode 是 实例 
属性 typecode， 也 就 是 把 同名 类 属性 遮盖 了 。 借 助 这 一 特性 ， 可 以 为 各 个 实例 的 

typecode 属性 定制 不 同 的 值 。 


Vector2d.typecode 属性 的 默认 值 是 'd'， 即 转换 成 字 节 序列 时 使 用 8 字 节 双 精 度 浮 点 
数 表示 向 量 的 各 个 分 量 。 如 果 在 转换 之 前 把 Vector2d 实例 的 typecode 属性 设 为 'f"， 
那么 使 用 4 字 节 单 精度 浮 点 数 表 示 各 个 分 量 ， 如 示例 9-13 所 示 。 





































































































ex 我 们 在 讨论 如 何 添加 自 定 义 的 实例 属性 ， 因 此 示例 9-13 使 用 的 是 示例 9-9 中 
不 带 slots 属性 的 Vector2d 类 。 








rE 


示例 9-13 ” 设 定 从 类 中 继承 的 typecode 属性 ， 自 定义 一 个 实例 属 ' 














>>> from vector2d v3 import Vector2d 
>>> v1 = Vector2d(1.1, 2.2) 

>>> dumpd = bytes(v1) 

>>> dumpd 
b'd\x9a\x99\x99\x99\x99\x99\xf1?\x9a\x99\x99\x99\x99\x99\xe1@'" 
>>> len(dumpd) # © 

17 

>>> v1l.typecode = 'f' #@ 

>>> dumpf = bytes(v1) 

>>> dumpf 
b'#\xcd\xcc\x8c?\xcd\xcc\x8c@' 

>>> len(dumpf) # © 

9 

>>> Vector2d.typecode # © 

'd' 











@ 默认 的 字 节 序列 长 度 为 17 个 字 节 。 
© 把 v1 实例 的 typecode 属性 设 为 'f'。 
O 现在 得 到 的 字 节 序列 是 9 个 字 节 长 。 


© Vector2d.typecode 属性 的 值 不 变 ， 只 有 v1 实例 的 typecode 属性 使 用 'f'。 























Reese Wea ee ele typecode 的 值 了 : 为 了 文 持 不 同 的 
INe 


如 果 想 修改 类 属性 的 值 ， 必 须 直 接 在 类 上 修改 ， 不 能 通过 实例 修改 。 如 果 想 修改 所 有 实例 
(没有 typecode 实例 变量 ) 的 typecode 属性 的 默认 值 ， 可 以 这 么 做 : 


然而 ， [eee Mane A 而 且 效果 持久 ， 也 更 有 针对 性 。 类 属性 是 公开 
的 ， 因 此 会 被 子 类 继承 ， 于 是 经 常会 创建 一 个 子 类 ， 只 用 于 定制 类 的 数据 属性 。Django 
基于 类 的 视图 就 大 量 使 用 了 这 个 技术 。 具 体 做 法 如 示例 9-14 所 示 。 


示例 9-14 ShortVector2d 是 Vector2d INF, KATAH typecode 的 默认 值 






















































































>>> from vector2d v3 import Vector2d 
>>> class ShortVector2d(Vector2d): # © 
typecode = 'f' 


>>> sv = ShortVector2d(1/11, 1/27) #@ 

>>> SV 

ShortVector2d(@.09999999999999091, 9.037037037037037035) # © 
>>> len(bytes(sv)) #@ 

9 








@ HE ShortVector2d 定义 为 Vector2d HTX, KATAK typecode 类 属性 。 
ON 为 了 演示 ， 创 建 一 个 ShortVector2d 实例 ， 即 sv. 

O 查看 sv 的 repr 表示 形式 。 

O 确认 得 到 的 字 节 序列 长 度 为 9 字 节 ， 而 不 是 之 前 的 17 字 节 。 


这 也 说 明了 我 在 Vecto2d. repr__ 方法 中 为 什么 没有 硬 编码 class_name 的 值 ， 而 是 
使 用 type(self)._name 获取， 如 下 所 示 : 






































# 在 Vector2d 类 中 定义 





def _repr_ (self): 


class_name = type(self). name _ 
return '{}({!r}, {!r})'.format(class name, *self) 








如 果 硬 编码 class_name 的 值 ， 那 么 Vector2d 的 子 类 (如 ShortVector2d) F% M 
_repr__ 方法 ， 只 是 为 了 修改 class_name 的 值 。 从 实例 的 类 型 中 读 取 类 
名 ，_ repr ”方法 就 可 以 放心 继承 。 


至 此 ， 我 们 通过 一 个 简单 的 类 说 明了 如 何 利用 数据 模型 处 理 Python 的 其 他 功能 : 提供 不 
Ro eo 实现 自 定 义 的 格式 代码 、 公 开 只 读 属性 ， 以 及 通过 hash() 函数 支持 
ar ARR AY o 












































910 ”本 章 小 结 
本 章 的 目的 是 说 明 ， 如 何 使 用 特殊 方法 和 约定 的 结构 ， 定 义 行为 良好 且 符 合 Python 风格 


的 类 。 














vector2d_ v3.py〔 示 例 9-9) HE vector2d v0.py( 示 例 9-2) 更 符合 Python 风格 吗 ? 
vector2d_v3.py 中 的 Vector2d 类 用 到 的 Python 功能 肯定 要 多 ， 但 是 Vector2d 类 的 第 一 
eee eae 比 哪 个 更 符合 风格 ， 要 看 使 用 的 上 下 文 。Tim Peter 写 的 “Python Z 4” iit 
1E: 

简洁 胜 于 复杂 。 
符合 Python 风格 的 对 象 应 该 正好 符合 所 需 ， 而 不 是 堆砌 语言 特性 。 


我 不 断 改写 Vector2d 类 是 为 了 提供 上 下 文 ， 以 便 讨 论 Python 的 特殊 方法 和 编程 约定 。 
回 看 表 1-1， 你 会 发 现 本 章 的 几 个 代码 清单 说 明了 下 述 特殊 方法 。 


。 所 有 用 于 获取 字符 串 和 字 节 序列 表示 形式 的 方 
法 : _ repr 、_ str 、 format 和 bytes _ 


。 把 对 象 转换 成 数字 的 几 个 方法 : _abs 、_ bool 和 hash 
。 用 于 测试 字 节 序列 转换 和 支持 散 列 (连同 _hash__ 方法 ) 的 __eq__ 运算 符 。 


为 了 转换 成 字 节 序 列 ， 我 们 还 实现 了 一 个 备 选 构造 方法 ， 即 Vector2d.frombytes()， 

顺便 又 讨论 了 @classmethod (十 分 有 用 ) 和 @staticmethod (不 太 有 用 ， 使 用 模块 层 
函数 更 简单 ) 两 个 装饰 器 。frombytes 方法 的 实现 方式 借鉴 了 array .array 类 中 的 同名 
方法 。 

































































我 们 了 解 到 ， 格 式 规 范 微 语言 Chttps://docs.python.org/3/library/string.html#formatspec) 是 
可 扩展 的 ， 方 法 是 实现 format_ 方法， 对 提供 给 内 置 函数 format (obj, 
format_spec) 的 format_spec， 或 者 提供 给 str. format 方法 的 
'{:«format_spec»}' 位 于 代 换 字段 中 的 “format_specy 做 简单 的 解析 。 


为 了 把 Vector2d 实例 变 成 可 散 列 的 ， 我 们 先 让 它们 不 可 变 ， 至 少 要 把 x 和 y 设 为 私有 属 
性 ， 再 以 只 读 特 性 公开 ， 以 防 意外 修改 它们 。 随 后 ， 我 们 实现 了 __hash 方法， 使 用 推 
荐 的 异 或 运算 符 计算 实例 属性 的 散 列 值 。 


接着 ， 我 们 讨论 了 如 何 使 用 __slots__ 属性 节省 内 存 ， 以 及 这 么 做 要 注意 的 问 
题 。_slots_ ”属性 有 点 国手 ， 因 此 仅 当 处 理 特别 多 的 实例 《〈 数 百 万 个 ， 而 不 是 几 和 王 
个 ) 时 才 建 议 使 用 。 


最 后 ， 我 们 说 明了 如 何 通过 访问 实例 属性 〈 如 self.typecode) AEREE. Helse! 
建 一 个 实例 属性 ， 然 后 创建 子 类 ， 在 类 中 和 履 盖 类 属性 。 






















































































本 章 多 次 提 到 ， 我 编写 代码 的 方式 是 为 了 举例 说 明 如 何 编写 标准 Python 对 象 的 API WR 
用 一 句 话 总 结 本 章 的 内 容 ， 那 就 是 : 


要 构建 符合 Python 风格 的 对 象 ， 就 要 观察 真正 的 Python 对 象 的 行为 。 
一 一 古老 的 中 国 谚语 

















9.11 延伸 阅读 


本 章 介 绍 了 数据 模型 的 几 个 特殊 方法 ， 因 此 主要 参考 资料 与 第 1 章 一 样 ， 阅 读 那些 资料 能 
对 这 个 话题 有 个 整体 了 解 。 方 便 起 见 ， 我 再 次 给 出 之 前 推荐 的 四 个 资料 ， 同 时 再 多 加 几 


Ma 

















Python 语言 参考 手册 中 的 “Data Mode” — = 
Chttps://docs.python.org/3/reference/datamodel.html ) 


本 章 用 到 的 方法 大 部 分 见于 “3.3.1. Basic 


customization” Chttps://docs.python.org/3/reference/datamodel.html#basic-customization) 。 





(Python RFA (58 2 fe) ) , Alex Martelli # 


虽然 这 本 书 只 涵盖 Python 2.5 CE 2 版 ) ， 但 是 对 数据 模型 做 了 深入 说 明 。 基 本 的 概 
念 都 是 一 样 的 ， 而 且 自 Python 2.2 起 (这 一 版 的 内 置 类 型 和 用 户 定义 的 类 兼容 性 变 得 更 
好 ) ， 数 据 模型 的 大 多 数 API 完全 没 变 。 


《Python Cookbook ($ 3 fig) 中 文 版 》，David Beazley 和 Brian K. Jones 车 


HIT RES RRR MAREEK. TURE 8 章 “ 类 与 对 象 "， 其 中 有 好 几 个 方案 与 
本 章 讨论 的 话题 有 关 。 


(Python 参考 手册 (E 4R) ) , David Beazley % 
详细 说 明了 Python 2.6 和 Python 3 的 数据 模型 。 


本 章 涵盖 了 与 对 象 表示 形式 有 关 的 全 部 特殊 方法 ， 唯 有 __index__ 除外 。 这 个 方法 的 作 
用 是 强制 把 对 象 转换 成 整数 索引 ， 在 特定 的 序列 切片 场景 中 使 用 ， 以 及 满足 NumPy 的 一 
个 需求 。 在 实际 编程 中 ， 你 我 都 不 用 实现 __index__ 方法， 除非 决定 新 建 一 种 数值 类 
型 ， 并 想 把 它 作 为 参数 传 给 ”getitem _ 方 法。 如果 好 奇 的 话 ， 可 以 阅读 A.M.Kuchling 
写 的 “Whats New in Python 2.5” (https://docs.python.org/2.5/whatsnew/pep-357.html) ， 这 篇 
文章 做 了 简要 说 明 ， 此 外 ， 还 可 以 阅读 “PEP 357—Allowing Any Object to be Used for 
Slicing” (https://www.python.org/dev/peps/pep-0357/) , X4 PEP 从 C 语言 扩展 的 实现 者 
和 NumPy 的 作者 Travis Oliphant 的 角度 详 述 了 对 __index__ 方法 的 需求 。 


意识 到 应 该 区 分 字符 串 表 示 形 式 的 早期 语言 是 Smalltalk。1996 年 ，Bobby Woolf 写 了 一 篇 
题 为 “How to Display an Object as a String: printString and displayString” 的 文章 

(http://esug.org/data/HistoricalDocuments/TheSmalltalkReport/ST07/04wo.pdf) ， 他 在 这 篇 
文章 中 讨论 了 Smalltalk 对 printString 和 displayString 方法 的 实现 。 在 9.1 节 说 明 
repr() 和 str() 的 作用 时 ， 我 从 这 篇 文章 中 借用 了 言 简 意 凡 的 表述 ， 即 “便于 开发 者 理 
解 的 方式 ”和 “便于 用 户 理 解 的 方式 ”。 
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特性 有 助 于 减少 前 期 投入 


在 Vector2d 类 的 第 一 版 中 ，x Aly 属性 是 公开 的 ; 默认 情况 下 ， 了 Python 的 所 有 实例 
属性 和 类 属 性 都 是 公开 的 。 这 对 问 量 来 说 是 合理 的 ， 因 为 我 们 要 外 poe 放量。 虽然 这 
些 向 量 是 可 和 迭代 的 对 象 ， 而 且 可 以 拆 包 成 一 对 变量 ， 但 是 还 要 能 够 通 

my_vector.x 和 my_vector.y 获取 各 个 分 量 。 


如 果 觉 得 应 该 避免 意外 更 新 x 和 y 属性 ， 可 以 实现 特性 ， 但 是 代码 的 其 他 部 分 没有 
变化 ，Vector2d 的 公开 接口 也 不 受 影 响 ， 这 一 点 从 doctest 中 可 以 得 知 。 我 们 依然 能 
WY e] my_vector.x #ll my_vector.y. 


这 表明 我 们 可 以 先 以 最 简单 的 方式 定义 类 ， 也 就 是 使 用 公开 属性 ， 因 为 如 果 以 后 需要 
对 读 值 方法 和 设 值 方法 增加 控制 ， 那 就 可 以 实现 特性 ， 这 样 做 对 一 开始 通过 公开 属性 
的 名 称 〔 如 x 和 y) 与 对 象 交 互 的 代码 没有 影响 。 


Java 语言 采用 的 方式 则 截然 相反 : Java 程序 员 不 能 先 定义 简单 的 公开 属性 ， 然 后 在 
需要 时 再 实现 特性 ， 因 为 Java 语言 没有 特性 。 因 此 ， 在 Java 中 编写 读 值 方法 和 设 值 
方法 是 常态 ， 就 算 这 些 方法 没 做 什么 有 用 的 事情 也 得 这 么 做 ， 因 为 API 不 能 从 简单 
的 公开 属性 变 成 读 值 方法 和 设 值 方法 ， 同 时 又 不 影响 使 用 那些 属性 的 代码 。 


此 外 ， 本 书 的 技术 审 校 Alex Martelli 指出 ， 到 处 都 使 用 读 值 方法 和 设 值 方法 是 思春 的 
行为 。 如 果 想 编写 下 面 的 代码 : 








































































































































































































>>> my_object.set foo(my object.get foo() + 1) 





这 样 做 就 行 了 : 


>>> my_object.foo += 1 

















维基 的 发 明 人 和 极限 编程 先驱 Ward Cunningham 建议 问 这 个 问题 : “做 这 件 事 最 简单 














的 方法 是 什么 ? RRN, RIMER AWEH RE. H HA 前 实现 设 什 方 法 和 读 值 方 
n TE Python 中 ， 我 们 可 以 先 使 用 公开 属性 ， 然后 等 需要 时 再 变 成 特 














私有 属性 的 安全 性 和 保障 性 


Perl 不 会 强制 你 保护 隐私 。 你 应 该 待 在 客厅 外 ， 因 为 你 没收 到 邀请 ， 而 不 是 因为 
里 面 有 把 枪 。 























Larry Wall 
Perl 之 父 


Python 和 Perl 在 很 多 方面 的 做 法 是 截然 相反 的 ， 但 是 Larry 和 Guido 似乎 都 同意 要 保 








护 对 象 的 隐私 。 


这 些 年 我 教 过 许多 Java 程序 员 学 习 Python， 我 发 现 很 多 人 都 对 Java 提供 的 隐私 保障 
推崇 备至 。 可 事实 是 ，Java 的 private 和 protected 修饰 符 往往 只 是 为 了 防止 意外 

( 即 一 种 安全 措施 ) 。 只 有 使 用 安全 管理 器 部 署 应 用 时 才能 保障 绝对 安全 ， 防 止 恶 意 
访问 ; 但是， 实际 上 很 少 有 人 这 么 做 ， 即 便 在 企业 中 也 少见 。 


下 面 通 过 一 个 Java 类 证 明 这 一 点 〈 见 示例 9-15) 。 



























































示例 9-15 Confidential.java: 一 个 Java 类 ， 定 义 了 一 个 私有 字段 ， 名 为 secret 








public class Confidential { 
private String secret = ""; 


public Confidential(String text) { 
secret = text.toUpperCase(); 
} 
} 








在 示例 9-15 中 ， 我 把 text 转换 成 大 写 后 存 入 secret 字段 。 转 换 成 大 写 是 为 了 表明 
secret 字段 中 的 值 全 部 是 大 写 的 。 


我 们 要 使 用 Jython 运行 expose.py 脚本 才能 真正 说 明 问 题 。 那 个 脚本 使 用 内 省 ava 
称 之 为 “反射 >) 获取 私有 字段 的 值 。expose.py 脚本 的 代码 在 示例 9-16 F. 


示例 9-16 expose.py: 一 段 Jython 代码 ， 从 另 一 个 类 中 读 取 一 个 私有 字段 











import Confidential 


message = Confidential('top secret text') 

secret_field = Confidential.getDeclaredField('secret' ) 
secret_field.setAccessible(True) # 攻破 防线 

print 'message.secret =', secret_field.get(message) 











运行 示例 9-16 得 到 的 结果 如 下 : 


$ jython expose.py 
message.secret = TOP SECRET TEXT 


字符 串 'TOP SECRET TEXT' 从 Confidential 类 的 私有 字段 secret 中 读 取 。 


这 里 没有 什么 黑 魔法 : expose.py 脚本 使 用 Java 反射 API 获取 私有 字段 'secret ' 的 
引用 ， 然 后 调用 'secret_field.setAccessible(True)' 把 它 设 为 可 读 的 。 显 
然 ， 使 用 Java 代码 也 能 做 到 这 一 点 《不 过 所 需 的 代码 行 数 是 这 里 的 三 倍 多 ， 参 见 本 
书 代码 仓库 里 的 Expose.java XF, https://github.com/fluentpython/example-code) 。 

















如 果 这 个 Jython 脚本 或 Java 主 程序 (如 Expose.class) 在 

SecurityManager Chttp://docs.oracle.com/javase/tutorial/essential/environment/security.html ) 
的 监管 下 运行 ，.setAccessible(True) 这 个 关键 的 调用 就 会 失败 。 但 是 现实 中 ， 
(>A ABBE Java 应 用 时 会 使 用 SecurityManager，Java applet 除外 (还 记得 这 个 
吗 ? ) 。 











我 的 观点 是 ，Java 中 的 访问 控制 修饰 符 基 本 上 也 是 安全 措施 ， 不 能 保证 万 无 一 失 
一 一 至 少 实 践 中 是 如 此 。 因 此 ， 安 心 享用 Python 提供 的 强大 功能 吧 ， 放 心 去 用 吧 ! 








11 参见 “Simplest Thing that Could Possibly Work: A Conversation with Ward Cunningham, Part 
V” Chttp//www.artima.com/intv/simplest3.htmD 。 


第 10 章 订 列 的 修改 、 黎 列 和 切片 


不 要 检查 它 是 不 是 鸭子 、 它 的 叫 声 像 不 像 鸭子 、 它 的 走路 姿势 像 不 像 蝎 子 ， 等 等 。 
具体 检查 什么 取决 于 你 想 使 用 语言 的 哪些 行为 。 (comp.lang.python，2000 年 7 
月 26 日) 











Alex Martelli 








本 章 将 以 第 9 章 定义 的 二 维 向 量 Vector2d 类 为 基础 ， 向 前 迈 出 一 大 步 ， 定 义 表示 多 维 向 
量 的 Vector 类 。 这 个 类 的 行为 与 Python 中 标准 的 不 可 变局 平 序列 一 样 。Vector 实例 中 
的 元 素 是 浮 点 数 ， 本 章 结 束 后 Vector 类 将 支持 下 述 功能 : 

。 其 本 的 序列 协议 一 一 len 和 getitem _ 

。 正确 表述 拥有 很 多 元 素 的 实例 

。 适 当 的 切片 支持 ， 用 于 生成 新 的 Vector 实例 

。 综合 各 个 元 素 的 值 计 算 散 列 值 

。 目 定义 的 格式 语言 扩展 


此 外 ， 我 们 还 将 通过 ”getattr _ 方法 实现 属性 的 动态 存 取 ， 以 此 取代 Vector2d 使 用 
的 只 读 特 性 一 一 不 过 ， 序 列 类 型 通常 不 会 这 么 做 。 


在 大 量 代码 之 间 ， 我 们 将 穿插 讨论 一 个 概念 ， 把 协议 当 作 正 式 接 口 。 我 们 将 说 明 协 议和 
榴 子 类 型 之 间 的 关系 ， 以 及 对 自 定义 类 型 的 实际 影响 。 


我 们 开始 吧 ! 
三 维 以 上 向 量 的 应 用 


谁 需要 1000 AE] NE? 提示 : 不 是 3D AAR! 不过， 信息 检索 领域 经 常 使 用 nn 维 
向 量 (n 是 很 大 的 数 ) ， 碍 询 的 文档 和 文本 使 用 向 量 表 示 ， 一 个 单词 一 个 维度 。 这 叫 
向 量 空间 模型 Chttps://en.wikipedia.org/wiki/Vector space model) 。 在 这 个 模型 中 ， 
一 个 关键 的 相关 指标 是 余弦 相关 性 ( 即 查 询 向 量 与 文档 向 量 夹 角 的 余弦 ) 。 夹 角 越 
小 ， 余 弦 值 越 趋 近 于 1， 文 档 与 查询 的 相关 性 就 越 大 。 


不 过 ， 本 章 定 义 的 Vector 类 是 为 了 教学 而 举 的 例子 ， 不 会 涉及 很 多 数学 原理 。 我 们 
的 目的 是 以 序列 类 型 为 背景 说 明 Python 的 几 个 特殊 方法 。 


如 果 在 实际 使 用 中 需要 做 向 量 运 算 ， 应 该 使 用 NumPy 和 SciPy. Radim Rehurek 开发 
的 PyPI 包 gensim Chttps://pypi.python.org/pypi/gensim) 使 用 NumPy 和 SciPy 实现 了 用 
于 处 理 自然 语言 和 检索 信息 的 向 量 空间 模型 。 





























































































































10.1 Vector’: 用 户 定 义 的 序列 类 型 


我 们 将 使 用 组 合 模式 实现 Vector 类 ， 而 不 使 用 继承 。 癌 量 的 分 量 存 储 在 浮 点 数 数组 中 ， 
而 且 还 下 将 实现 不 可 变 扁平 序列 所 需 的 方法 。 


不 过 ， 在 实现 序列 方法 之 前 ， 我 们 要 确保 Vector 类 与 前 一 章 定义 的 Vector2d 类 兼容 ， 
除非 有 些 地 方 让 二 者 兼容 没有 什么 意义 。 













































































10.2 Vector 类 第 1 版 : 与 Vector2d 类 兼容 


Vector 类 的 第 1 版 要 尽量 与 前 一 章 定 义 的 Vector2d 类 兼容 。 























然而 我 们 会 故意 不 让 Vector 的 构造 方法 与 Vector2d 的 构造 方法 兼容 。 为 了 编写 
Vector(3, 4) 和 Vector(3，4，5) 这 样 的 代码 ， 我 们 可 以 让 __init__ 方法 接受 任意 
个 参数 (通过 *args) ; 但 是 ， 序 列 类 型 的 构造 方法 最 好 接受 可 迭代 的 对 象 为 参数 ， 因 为 
所 有 内 置 的 序列 类 型 都 是 这 样 做 的 。 示 例 10-1 展示 了 Vector 类 的 几 种 实例 化 方式 。 

















示例 10-1 测试 Vector. init 和 Vector. repr 方法 





>>> Vector([3.1, 4.2]) 

Vector([3.1, 4.2]) 

>>> Vector((3, 4, 5)) 

Vector([3.0, 4.0, 5.0]) 

>>> Vector (range(1@) ) 

Vector([@.0, 1.0, 2.0, 3.0, 4.0, ...]) 




















除了 新 构造 方法 的 签名 外 ， 我 还 确保 了 传 入 两 个 分 量 〈 如 Vector([3, 4])) 
时 ，Vector2d 2% (ùn Vector2d(3, 4)) 的 每 个 测试 都 能 通过 ， 而 且 得 到 相同 的 结果 。 


Bs 
如 果 Vector 实例 的 分 量 超过 6 个 ，repr() 生成 的 字符 串 就 会 使 用 . . . 省 略 一 部 
分 ， 如 示例 10-1 中 的 最 后 一 行 所 示 。 包 含 大 量 元 素 的 集合 类 型 一 定 要 这 么 做 ， 因 为 
字符 串 表 示 形 式 是 用 于 调试 的 〈 因 此 不 想 让 大 型 对 象 在 控制 台 或 日 志 中 输出 几 千 行内 
X) 。 使 用 reprlib 模块 可 以 生成 长 度 有 限 的 表示 形式 ， 如 示例 10-2 所 示 。 


在 Python 2 中 ，reprlib 模块 的 名 字 是 repr。2to3 工具 能 自动 重 写 repr 导入 的 内 
容 。 






































示例 10-2 是 第 1 版 Vector 类 的 实现 代码 (以 示例 9-2 和 示例 9-3 中 的 代码 为 基础 ) 。 


示例 10-2 vector vl.py: 从 vector2d_vl.py 衍 生 而 来 





from array import array 
import reprlib 
import math 


class Vector: 
typecode = ‘d' 


def _ init__(self, components): 
self. components = array(self.typecode, components) © 


def _iter (self): 





return iter(self. components) @ 


def _repr_ (self): 
components = reprlib.repr(self._components) © 
components = components[components.find('['):-1] @ 
return 'Vector({})'.format (components) 


def _str (self): 
return str(tuple(self)) 


def _ bytes __ (self): 
return (bytes([ord(self.typecode)]) + 
bytes(self._components)) © 


def _eq_ (self, other): 
return tuple(self) == tuple(other) 


def _abs_ (self): 
return math.sqrt(sum(x * x for x in self)) © 


def bool (self): 
return bool(abs(self)) 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[@]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) 











@ self. components 是 “ 受 保护 的 ”实例 属性 ， 把 Vector 的 分 量 保存 在 一 个 数组 中 。 
四 为 了 和 迭代， 我 们 使 用 self. components 构建 一 个 迭代 器 。1 











liter() 函数 和 iter ”方法 在 第 14 章 讨论 。 








© 使 用 reprlib.repr() 函数 获取 self. components 的 有 限 长 度 表 示 形 式 〈 如 
array('d', [@.0, 1.0, 2.0, 3.0, 4.0, ...])). 


O EFFERIA Vector 的 构造 方法 调用 之 前 ， 去 掉 前 面 的 array('d' 和 后 面 的 ) 。 
O 直接 使 用 self._components 构建 bytes 对 象 。 


O 不 能 使 用 hypot 方法 了 ， 因 此 我 们 先 计算 各 分 量 的 平方 之 和 ， 然 后 再 使 用 sqrt 方法 
eee 


O FR RE Vector2d.frombytes 方法 的 基础 上 改动 最 后 一 行 : 直接 把 memoryview 
传 给 构造 方法 ， 不 用 像 前 面 那样 使 用 * 拆 包 。 


我 使 用 reprlib.repr 的 方式 需要 做 些 说 明 。 这 个 函数 用 于 生成 大 型 结构 或 递归 结构 的 
安全 表示 形式 ， 它 会 限制 输出 字符 串 的 长 度 ， 用 '.. . 表示 截断 的 部 分 。 我 希望 Vector 
实例 的 表示 形式 是 Vector([3.6，4.96，5.6]) 这 样 ， 而 不 是 Vector(array('d '， 
[3.6，4.6，5.6]))， 因 为 Vector 实例 中 的 数组 是 实现 细节 。 因 为 这 两 种 构造 方法 的 




























































































调用 方式 所 构建 的 Vector 对 象 是 一 样 的 ， 所 以 我 选择 使 用 更 简单 的 句法 ， 即 传 入 列表 参 





编写 __repr__ 方法 时 ， 本 可 以 使 用 这 个 表达 式 生 成 简化 的 components 显示 形 

xt: reprlib.repr(list(self._components))。 然 而 ， 这 么 做 有 点 浪费 ， 因 为 要 把 
self._components 中 的 每 个 元 素 复 制 到 一 个 列表 中 ， 然 后 使 用 列表 的 表示 形式 。 我 没 
有 这 么 做 ， 而 是 直接 把 self._components 传 给 reprlib.repr 函数 ， 然 后 去 掉 [] 外 面 
的 字符 ， 如 示例 10-2 中 __repr_ 方法 的 第 二 行 所 示 。 


























A 调用 repr() 函数 的 目的 是 调试 ， 因 此 绝对 不 能 抛 出 异常 。 如 果 repr _ 方 
法 的 实现 有 问题 ， 那 么 必须 处 理 ， 尽 量 输出 有 用 的 内 容 ， 让 用 户 能 够 识别 目标 对 象 。 


注意 ，_str 、 eq 和 bool 方法 与 Vector2d 类 中 的 一 样 ， 而 frombytes 方 
法 也 只 变 了 一 个 字符 (最 后 一 行 把 * 去 掉 了 ) 。 这 是 Vector2d 可 和 迭代 的 好 处 之 一 。 


顺便 说 一 下 ， 我 们 本 可 以 让 Vector 继承 Vector2d， 但 是 我 没 这 么 做 ， 原 因 有 二 。 其 

一 ， 两 个 构造 方法 不 兼容 ， 因 此 不 建议 继承 。 这 一 点 可 以 通过 适当 处 理 init 方法 的 
参数 解决 ， 不 过 第 二 个 原因 更 重要 : 我 想 把 Vector 类 当 作 单 独 的 示例 ， 以 此 实现 序列 协 
议 。 接 下 来 ， 我 们 先 讨论 协议 这 个 术语 ， 然 后 实现 序列 协议 。 







































































10.3 ”协议 和 蝎子 类 型 
在 第 1 章 我 们 就 说 过 ， 在 Python 中 创建 功能 完善 的 序列 类 型 无 需 使 用 继承 ， 只 需 实现 符 
合 序列 协议 的 方法 。 不 过 ， 这 里 说 的 协议 是 什么 呢 ? 


在 面向 对 象 编程 中 ， 协 议 是 非 正式 的 接口 ， 只 在 文档 中 定义 ， 在 代码 中 不 定义 。 例 如 ， 
Python 的 序列 协议 只 需要 len 和 getitem _ 两 个 方法 。 任 何 类 (如 Spam) ， 只 
要 使 用 标准 的 签名 和 语义 实现 了 这 两 个 方法 ， 就 能 用 在 任何 期 待 序列 的 地 方 。Spam 是 不 
a a 只 要 提供 了 所 需 的 方法 即 可 。 示 例 1-1 中 见 过 一 例 ， 这 里 再 次 


如 示例 10-3 所 示 。 
示例 10-3 示例 1-1 的 代码 ， 为 了 方便 ， 再 次 给 出 






























































import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_ (self): 
return len(self._cards) 


def getitem (self, position): 
return self._cards[position] 








示例 10-3 中 的 FrenchDeck 类 能 充分 利用 Python 的 很 多 功能 ， 因 为 它 实 现 了 序列 协议 ， 
不 过 代码 中 并 没有 声明 这 一 点 。 任 何 有 经 验 的 Python 程序 员 只 要 看 一 眼 就 知道 它 是 序 
列 ， 即 便 它 是 object 的 子 类 也 无 护 。 我 们 说 它 是 序列 ， 因 为 它 的 行为 像 序列 ， 这 才 是 重 





























根据 本 章 开 头 引用 的 Alex Martelli 的 帖子 ， 人 们 称 其 为 鸭子 类 型 (duck typing) 。 
协议 是 非 正 式 的 ， 没 有 强制 力 ， 因 此 如 果 你 知道 类 的 有 具体 使 用 场景 ， 通 常 只 需要 实现 一 个 
协议 的 部 分 。 例 如 ， 为 了 支持 迭代 ， 只 需 实现 getitem ”方法 ， 没 必要 提供 _ len_ 


下 面 ， 我 们 将 在 Vector 类 中 实现 序列 协议 。 我 们 先 不 支持 完美 的 切片 ， 稍 后 再 完善 。 



























































10.4 ”Vector 类 第 2 版 : 可 切片 的 序列 


如 FrenchDeck 类 所 示 ， 如 果 能 委托 给 对 象 中 的 序列 属性 (如 self._components 数 
cafe 支持 序列 协议 特别 简单 。 下 述 只 有 一 行 代 码 的 ”len 和 getitem _ 方法 是 个 
好 所 开始 : 

















class Vector: 
# 省 略 了 很 多 行 
# ..。 




















def _len_ (self): 
return len(self._components) 


def getitem (self, index): 
return self._components[index] 











添加 这 两 个 方法 之 后 ， 就 能 执行 下 述 操作 了 : 


>>> v1 = Vector([3, 4, 5]) 
>>> len(v1) 

3 

>>> v1[@], v1[-1] 

(3.0, 5.0) 

>>> v7 = Vector(range(7) ) 
>>> v7[1:4] 

array('d', [1.0, 2.0, 3.0]) 








可 以 看 到 ， 现 在 连 切 片 都 支持 了 ， 不 过 尚 不 完美 。 如 果 Vector 实例 的 切片 也 是 Vector 
实例 ， 而 不 是 数组 ， 那 就 更 好 了 。 前 面 那个 FrenchDeck 类 也 有 类 似 的 问题 : 切片 得 到 的 
是 列表 。 对 Vector 来 说 ， 如 果 切 片 生 成 普通 的 数组 ， 将 会 缺失 大 量 功能 。 

想 想 内 置 的 序列 类 型 ， 切 片 得 到 的 都 是 各 自 类 型 的 新 实例 ， 而 不 是 其 他 类 型 。 


为 了 把 Vector 实例 的 切片 也 变 成 Vector 实例 ， 我 们 不 能 简单 地 委托 给 数组 切片 。 我 们 
要 分 析 传 给 __getitem__ 方法 的 参数 ， 做 适当 的 处 理 。 


R Python 如 何 把 my_seq[1:3] WEAK my_seq.__getitem_(...) 的 参 












































10.4.1 切片 原理 
一 例 胜 千言 ， 我 们 来 看 看 示例 10-4。 
示例 10-4 了 解 getitem 和 切片 的 行为 











>>> class MySeq: 
def getitem (self, index): 


return index # © 


>>> s = MySeq() 

>>> s[1] #@ 

1 

>>> s[1:4] #6 
slice(1, 4, None) 

>>> s[1:4:2] #0 
slice(1, 4, 2) 

>>> $[1:4:2, 9] #0 
(slice(1, 4, 2), 9) 

>>> s[1:4:2, 7:9] # QO 
(slice(1, 4, 2), slice(7, 9, None)) 








@ 在 这 个 示例 中 ，__getitem_ 直接 返回 传 给 它 的 值 。 
四 单个 索引 ， 没 什么 新 奇 的 。 
@ 1:4 表示 法 变 成 了 slice(1，4，None)。 
@slice(1, 4, 2) 的 意思 是 从 1 开始 ， 到 4 结束 ， 步 幅 为 2。 
O 神奇 的 事 发 生 了 : MR] FAES, MA _ getitem_ 收 到 的 是 元 组 。 
@ 元 组 中 甚至 可 以 有 多 个 切片 对 象 。 
现在 ， 我 们 来 仔细 看 看 slice 本 身 ， 如 示例 10-5 所 示 。 
示例 10-5 ”查看 slice 类 的 属性 




















>>> slice #@ 
<class 'slice'> 
>>> dir(slice) #@ 


['_class ', '_delattr__', '_dir__', '_doc__', '_eq_', 
' format_', '_ge_', ‘__getattribute_', '_ gt ', 
'_hash_', '__init__', '_le_', '_l1t_', '_ne_', 

' new__', ‘reduce ', ' reduce ex ', ‘_repr_', 
' setattr ', ' sizeof ', '_ str ', '_ subclasshook '， 


'indices', 'start', 'step', 'stop'] 





Q slice 是 内 置 的 类 型 (2.4.2 节 首次 出 现 ) 。 
@ 通过 审查 slice, KMEA start. stop 和 step 数据 属性 ， 以 及 indices 方法 。 


在 示例 10-5 中 ， 调 用 dir(slice) 得 到 的 结果 中 有 个 indices 属性 ， 这 个 方法 有 很 大 的 
作用 ， 但 是 鲜 为 人 知 。help(slice.indices) 给 出 的 信息 如 下 。 



































S.indices(len) -> (start, stop, stride) 


给 定 长 度 为 len 的 序列 ， 计 算 s 表示 的 扩展 切片 的 起 始 〈start) 和 结尾 (stop) 
RIL URI (stride) 。 超 出 边界 的 索引 会 被 截 掉 ， 这 与 常规 切片 的 处 理 方式 
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换 句 话说 ，indices PAFAT AB a SCHL RAE, H TREERE 5 A 
负数 索引 ， 以 及 长 度 超过 目标 序列 的 切片 。 这 个 方法 会 “整顿 ?元 组 ， 把 start. stop 和 
stride 都 变 成 非 负 数 ， 而 且 都 落 在 指定 长 度 序 列 的 边界 内 。 


下 面 举 几 个 例子 。 假 设 有 个 长 度 为 5 的 序列 ， 例 如 'ABCDE ' : 











>>> slice(None, 10, 2).indices(5) # © 
(0, 5, 2) 


>>> slice(-3, None, None).indices(5) #@ 
(2, 5, 1) 





@ 'ABCDE'[:10:2] 等 同 于 'ABCDE' [0:5:2] 


© 'ABCDE'[-3:] 等 同 于 'ABCDE' [2:5:1] 





` 写作 本 书 时 ， 在 线 版 Python 库 参 考 好 像 还 没有 slice.indices 方法 的 文 
档 。2Python Python/C API 参考 手册 中 有 类 似 的 C 语言 函数 的 文档 ， 
PySlice_GetIndicesEx (https://docs.python.org/3/c- 

api/slice.html#c.PySlice GetIndicesEx) 。 研 究 切片 对 象 时 ， 我 在 Python 控制 台中 执行 
了 dir() 和 help()， 这 才 发 现 slice.indices() 方法 。 这 也 表明 交互 式 控制 台 是 
个 有 价值 的 工具 ， 能 发 现 新 事物 。 











2 现在 已 经 有 了 ， 参 见 : httpsy/docs.python.org/3/mreference/datamodelhtml?highlight=indices#slice.indices。 一 一 编 者 注 








在 Vector 类 中 无 需 使 用 slice.indices() 方法 ， 因 为 收 到 切片 参数 时 ， 我 们 会 委托 
_components 数组 处 理 。 但 是 ， 如 果 你 没有 底层 序列 类 型 作为 依靠 ， 那 么 使 用 这 个 方法 
能 节省 大 量 时 间 。 


现在 我 们 知道 如 何 处 理 切 片 了 ， 下 面 来 看 Vector. getitem _ 方法 改进 后 的 实现 。 


















































10.4.2 ”能 处 理 切 片 的 _ getitem_ 方法 


示例 10-6 cat 了 让 Vector 表现 为 序列 所 需 的 两 个 方法 ，_len 和 getitem OA 
者 现在 能 正确 地 处 理 切 片 了 ) 。 


示例 10-6 vector v2.py 的 部 分 代码 : 为 vector vi.py FAY Vector 类 【〔 见 示例 10- 
2) 添加 _ len 和 getitem ”方法 
































def _len_ (self): 
return len(self._components) 


def _getitem_ (self, index): 
cls = type(self) © 
if isinstance(index, slice): @ 
return cls(self._components[index]) © 
elif isinstance(index, numbers.Integral): @ 
return self. components[index] © 
else: 





msg = '{cls. name } indices must be integers' 
raise TypeError(msg.format(cls=cls)) © 














@ 获取 实例 所 属 的 类 〈 即 Vector) ， 供 后 面 使 用 。 

© 如果 index 参数 的 值 是 slice 对 象 .…… 

@...... 调用 类 的 构造 方法 ， 使 用 components 数组 的 切片 构建 一 个 新 Vector 实例 。 
四 如 果 index 是 int 或 其 他 整数 类 型 ..….. 

















3 必须 在 vector_v2.py 的 开头 加 上 import numbers。 一 编者 注 











@...... 那 就 返回 “components 中 相应 的 元 素 。 
否则 ， 抛 出 异常 。 








` 大 量 使 用 isinstance 可 能 表明 面向 对 象 设 计 得 不 好 ， 不 过 在 getitem _ 
方法 中 使 用 它 处 理 切片 是 合理 的 。 注 意 ， 示 例 10-6 中 测试 时 用 的 是 
numbers .Integral， 这 是 一 个 抽象 基 类 (Abstract Base Class, ABC) 。 在 
isinstance 中 使 用 抽象 基 类 做 测试 能 让 API 更 灵活 且 更 容易 更 新 ， 原 因 参 见 第 11 
章 。 可 惜 ，Python 3.4 的 标准 库 中 没有 slice 的 抽象 基 类 。 
为 了 确定 在 __getitem__ 的 else 子 句 中 会 抛 出 哪个 异常 ， 我 在 交互 式 控制 台中 查看 了 
"ABC'[1, 2] WAR. REIL Python 抛 出 的 是 TypeError; 我 还 从 错误 消息 中 复制 了 
表述 方式 , “indices must be integers”。 为 了 创建 符合 Python 风格 的 对 象 ， 我 们 要 模仿 
Python 内 置 的 对 象 。 
把 示例 10-6 中 的 代码 添加 到 Vector 类 中 之 后 ， 切 片 行为 就 正确 了 ， 如 示例 10-7 所 示 。 


示例 10-7 测试 示例 10-6 中 改进 的 Vector. _getitem__ 方法 













































































>>> v7 = Vector(range(7)) 

>>> v7[-1] © 

6.0 

>>> v7[1:4] @ 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] © 

Vector([6.0]) 

>>> v7[1,2] © 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 
@ 单个 整数 索引 只 获取 一 个 分 量 ， 值 为 浮 点 数 。 
O 切片 索引 创建 一 个 新 Vector 实例 。 




















O 长 度 为 1 的 切片 也 创建 一 个 Vector 实例 。 
O vector 不 支持 多 维 索引 ， 因 此 索引 元 组 或 多 个 切片 会 抛 出 错误 。 





10.5 Vector 类 第 3 版 : 动态 存 取 属性 


Vector2d 变 成 Vector 之 后 ， 就 没 办 法 通过 名 和 称 访 问 向 量 的 分 量 了 (如 v.x 和 v.y) o 
现在 我 们 处 理 的 向 量 可 能 有 大 量 分 量 。 不 过 ， 若 能 通过 单个 字母 访问 前 几 个 分 量 的 话 会 比 
较 方便 。 比 如 ， 用 x、y All z 4H vio] v[1] v[2]。 


我 们 想 额 外 提供 下 述 句法 ， 用 于 读 取 向 量 的 前 四 个 分 量 : 
































































































































>>> v = Vector(range(16)) 
>>> V.X 

0.0 

>>> V.y, V.Z, v.t 

(1.0, 2.0, 3.0) 








Vector2d 中 ， 我 们 使 用 @property 装饰 器 把 x 和 y 标记 为 只 读 特 性 〈 见 示例 9- 
。 我 们 可 以 在 Vector 中 编写 四 个 特性 ， 但 这 样 太 麻 烦 。 特 殊 方法 getattr __ 提供 
TEENER, 


属性 查找 失败 后 ， 解 释 器 会 调用 _getattr _ 方 法。 简单 来 说 ， 对 my_obj .x 表达 式 ， 
Python 会 检查 my_obj 实例 有 没有 名 为 x 的 属性 ; 如 果 没 有 ， 到 类 

(my_obj. class ) 中 查找 ;如 果 还 没有 ， 顺 着 继承 树 继续 查找 。4 如 果 依 旧 找 不 
到 ， 调 用 my_obj 所 属 类 中 定义 的 __getattr _ 方法 ， 传 入 self 和 属性 名 称 的 字符 有 
形式 (如 'x'") 。 
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4 属性 查找 机 制 比 这 复杂 得 多 ， 复 杂 的 细节 在 第 六 部 分 讲解 。 目 前 知道 这 种 简单 的 说 明 即 可 。 


























示例 10-8 中 列 出 的 是 我 们 为 Vector 类 定义 的 getattr _ 方法 。 这 个 方法 的 作用 很 简 
单 ， 它 检查 所 查找 的 属性 是 不 是 xyzt 中 的 某 个 字母 ， 如 果 是 ， 那 么 返回 对 应 的 分 量 。 


示例 10-8 vector_v3.py 的 部 分 代码 : 在 vector_v2.py 中 定义 的 Vector 类 里 添加 
_ getattr _ 方法 




















shortcut_names = 'xyzt' 


def _ getattr (self, name): 
cls = type(self) © 


if len(name) = 1: @ 
pos = cls.shortcut_names.find(name) © 
if © <= pos < len(self. components): @ 
return self. _components[pos] 
msg = '{.__name_!r} object has no attribute {!r}' © 
raise AttributeError(msg.format(cls, name) ) 








@ 获取 Vector， 后 面 待 用 。 
O 如 果 属 性 名 只 有 一 个 字母 ， 可 能 是 shortcut_names 中 的 一 个 。 

















O 直 扫 那个 字母 的 位 置 ，str Find 还 会 定位 “yz ， 但 是 我 们 不 需要 ， 因 此 在 前 一 行人 
了 测试 。 


O 如 果 位 置 落 在 范围 内 ， 返 回 数组 中 对 应 的 元 素 。 
O 如 果 测 试 都 失败 了 ， 抛 出 AttributeError， 并 指明 标准 的 消息 文本 。 
天 getattr 一 方法 的 实现 不 难 ， 但 是 这 样 实现 还 不 够 。 看 看 示例 10-9 中 古怪 的 交互 行 














示例 10-9 不 恰当 的 行为 : 为 v.x 赋值 没有 抛 出 错误 ， 但 是 前 后 矛盾 








>>> v = Vector(range(5)) 

>>> V 

Vector([0.0, 1.0, 2.0, 3.0, 4.0]) 

>> v.x #0 

0.0 

>> v.x=10 #@ 

>> v.x #0 

10 

>>> V 

Vector([@.0, 1.0, 2.0, 3.0, 4.0]) #@ 











O 使 用 v.x 获取 第 一 个 元 素 (v[86]) 。 

四 为 v.x 赋 新 值 。 这 个 操作 应 该 抛 出 异常 。 
全 读 取 v.x， 得 到 的 是 新 值 ， 

Qe, MBNA. 


你 能 解释 为 什么 会 这 样 吗 ?具体 而 言 ， 如 果 向 量 的 分 量 数组 中 没有 新 值 ， 为 什么 v.x 返 
回 10? 如 果 你 不 能 立即 给 出 解释 ， 再 看 看 示例 10-8 前 面 对 getattr _ 方法 的 说 明 。 
原因 不 是 很 明显 ， 但 却 是 理解 本 书后 面 内 容 的 重要 基础 。 


示例 10-9 之 所 以 前 后 矛盾 ， 是 __getattr__ 的 运作 方式 导致 的 : 仅 当 对 象 没 有 指定 名 称 
的 属性 时 ，Python 才 会 oes 这 是 一 种 后 备 机 制 。 可 是 ， 像 v.x = 10 这 样 赋值 
之 后 ，v 对 象 有 x 属性 了 ， 因 此 使 用 v. x 获取 x 属性 的 值 时 不 会 调用 __getattr_ ”方法 
了 ， 解 释 器 直接 返回 绑 定 到 v.x 上 的 值 ， 即 10。 另 一 方面 ， getattr ”方法 的 实现 没 
有 考虑 到 self. components 之 外 的 实例 属性 ， 而 是 从 这 个 属性 中 获取 
shortcut_names 中 所 列 的 “虚拟 属性 ”。 


为 了 避免 这 种 前 后 矛盾 的 现象 ， 我 们 要 改写 Vector 类 中 设置 属性 的 逻辑 。 


回想 第 9 章 的 最 后 一 个 Vector2d 示例 中 ， 如 果 为 .x 或 .y 实例 属性 赋值 ， 会 抛 出 
AttributeError。 为 了 避免 歧义 ， 在 Vector 类 中 ， 如 果 为 名 称 是 单个 小 写字 母 的 属性 
赋值 ， 我 们 也 想 抛 出 那个 异常 。 为 此 ， 我 们 要 实现 setattr_ “方法 ， 如 示例 10-10 所 
ZN 0 































































































































































































示例 10-10 vector v3.py 的 部 分 代码 : 在 Vector 类 中 实现 setattr _ 方法 


def _ setattr__(self, name, value): 
cls = type(self) 


if len(name) = 1: © 
if name in cls.shortcut_names: © 
error = ‘readonly attribute {attr_name!r}' 
elif name.islower(): 
error = "can't set attributes 'a' to 'z' in {cls_name!r}" 
else: 
error = '' @ 


if error: © 
msg = error.format(cls_name=cls._name__, attr_name=name) 
raise AttributeError(msg) 
super(). setattr (name, value) © 

















@ 特别 处 理 名 称 是 单个 字符 的 属性 。 

四 如果 name 是 xyzt 中 的 一 个 ， 设 置 特殊 的 错误 消息 。 

O 如 果 name 是 小 写字 母 ， 为 所 有 小 写字 母 设 置 一 个 错误 消息 。 
否则 ， 把 错误 消息 设 为 空 字符 串 。 

O 如 果 有 错误 消息 ， 抛 出 AttributeError。 


O 默认 情况 : 在 超 类 上 调用 setattr _ 方 法， 提供 标 准 行为 。 






































AI super () 函数 用 于 动态 访问 超 类 的 方法 ， 对 Python 这 样 支持 多 重 继 承 的 动态 
语言 来 说 ， 必 须 能 这 么 做 。 程 序 员 经 常 使 用 这 个 函数 把 子 类 方法 的 某 些 任务 委托 给 超 
类 中 适当 的 方法 ， 如 示例 10-10 所 示 。12.2 节 会 进一步 探讨 super() 函数 。 


为 了 给 AttributeError 选择 错误 消息 ， 我 查看 了 内 置 的 complex 类 型 的 行为 ， 因 为 
complex 对 象 是 不 可 变 的 ， 而 且 有 一 对 数据 属性 : real 和 imag。 如 果 试 图 修改 任何 一 个 
ate, complex 实例 会 抛 出 AttributeError， 而 且 把 错误 消息 设 为 "can't set 
attribute"。 而 如 果 尝 试 为 受 特性 保护 的 只 读 属 性 赋值 〈 像 9.6 节 那 样 做 ) ， 得 到 的 错 
误 消 息 是 "readonly attribute"。 在 ”setitem ”方法 中 为 error 字符 串 选 词 时 ， 我 
参考 了 这 两 个 错误 消息 ， 而 且 更 为 明确 地 指出 了 禁止 赋值 的 属性 。 


注意 ， 我 们 没有 禁止 为 全 部 属性 赋值 ， 只 是 禁止 为 单个 小 写字 母 属性 赋值 ， 以 防 与 只 读 属 
Ex ys zF tH. 
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Be 我 们 知道 ， 在 类 中 声明 _ slots _ 属性 可 以 防止 设置 新 实例 属性 ; 因此 ， 
你 可 能 想 使 用 这 个 功能 ， 而 不 像 这 里 所 做 的 ， 实 现 setattr_ Wid. We, Ib MM 
9.8.1 节 所 指出 的 ， 不 建议 只 为 了 避免 创建 实例 属性 而 使 用 __slots_ 属 
fe. _ slots __ 属性 只 应 该 用 于 节省 内 存 ， 而 且 仅 当 内 存 严重 不 足 时 才 应 该 这 么 

















做 。 
虽然 这 个 示例 不 支持 为 Vector 分 量 赋值 ， 但 是 有 一 个 问题 要 特别 注意 : 多 数 时 候 ， 如 果 


里 


实现 了 getattr 方法， 那么 也 要 定义 ”setattr _ 方法 ， 以 防 对 象 的 行为 不 一 


致 。 
如 果 想 允许 修改 分 量 ， 可 以 使 用 setitem _ 方 法， 支持 v[6] = 1.1 这 样 的 赋值 ， 以 
及 (或 者 ) 实现 setattr _ 方 法， 支持 v.x = 1.1 这 样 的 赋值 。 不 过 ， 我 们 要 保持 


Vector 是 不 可 变 的 ， 因 为 在 下 一 节 中 ， 我 们 将 把 它 变 成 可 散 列 的 。 






































10.6 ”Vector 类 第 4 版 : 散 列 和 快速 等 值 测试 


我 们 要 再 次 实现 hash 方法。 加 上 现 有 的 ”eq ”方法 ， 这 会 把 Vector 实例 变 成 可 
散 列 的 对 象 。 


示例 9-8 中 的 ”hash_ ”方法 简单 地 计算 hash(self.x) ^ hash(self.y)。 这 一 次 ,我 
们 要 使 用 ^〈( 异 或 运算 符 依次 计算 各 个 分 量 的 散 列 值 ， 像 这 样 : v[e] ^ v[1] ^ 
v[2]...。 这 正 是 functools.reduce 函数 的 作用 。 之 前 我 说 reduce 没有 以 往 那 么 常 
e a a ea reduce 函数 的 整体 思路 
0 图 10-1 所 示 。 














| Ssum. any 和 all 涵盖 了 reduce 的 大 部 分 用 途 。 参 见 5.2.1 节 的 讨论 。 








[全 全 全 全 全 全 


eee meee a; reduce 
© 











10-1: 上 归 约 函数 (reduce, sum, any, all) 把 序列 或 有 限 的 可 迭代 对 象 变 成 一 个 








我 们 已 经 知道 functools .reduce() 可 以 蔡 换 成 sum()， 下 面 说 说 它 的 原理 。 它 的 关键 
思想 是 ， 把 一 系列 值 归 约 成 单个 值 。reduce() 函数 的 第 一 个 参数 是 接受 两 个 参数 的 函 
数 ， 第 二 个 参数 是 一 个 可 迭代 的 对 象 。 假 如 有 个 接受 两 个 参数 的 fn 函数 和 一 个 1st 列 
表 。 调 用 reduce(fn，1st) It, fn 会 应 用 到 第 一 对 元 素 上 ， 即 fn(1st[8]， 
1st[1])， 生 成 第 一 个 结果 r1。 然 后 ，fn 会 应 用 到 ri 和 下 一 个 元 素 上 ， 即 fn(r1， 
lst[2])， 生 成 第 二 个 结果 r2。 接 着 ， 调 用 fn(r2，1st[3])， 生 成 r3...... 直 到 最 后 一 
个 元 素 ， 返 回 最 后 得 到 的 结果 rN。 


使 用 reduce 函数 可 以 计算 5! (5 的 阶乘 ) : 











>> 2*3*4*5 # 想 要 的 结果 是 : 5! == 120 
120 


>>> import functools 
>>> functools.reduce(lambda a,b: a*b, range(1, 6)) 
120 





回 到 散 列 问题 上 。 示 例 10-11 展示 了 计算 聚合 异 或 的 3 种 方式 : 一 种 使 用 For 循环 ， 两 种 


使 用 reduce 函数 。 
示例 10-11 计算 整数 0~5 的 累计 异 或 的 3 种 方式 


>>>n= 6 
>>> for i in range(1, 6): #@ 
n “= i 
>>> n 
1 
>>> import functools 
>>> functools.reduce(lambda a, b: a^b, range(6)) #@ 
1 
>>> import operator 
>>> functools.reduce(operator.xor, range(6)) # © 
1 





@ 使 用 for 循环 和 累加 器 变量 计算 聚合 异 或 。 

@ 使 用 functools.reduce 函数 ， 传 入 匿名 函数 。 

© 使 用 functools.reduce 函数 ， 把 lambda 表达 式 换 成 operator .xor。 
示例 10-11 中 的 3 种 方式 里 ， 我 最 喜欢 最 后 一 种 ， 其 次 是 for 循环 。 你 呢 ? 


5.10.1 节 讲 过 ，operator 模块 以 函数 的 形式 提供 了 Python 的 全 部 中 绥 运 算 符 ， 从 而 减少 
使 用 lambda 表达 式 。 


为 了 使 用 我 喜欢 的 方式 编写 Vector. hash _ 方法 ， 我 们 要 导入 functools 和 
operator 模块 。Vector 类 的 相关 变化 如 示例 10-12 所 示 。 


示例 10-12 vector_v4.py 的 部 分 代码 : 在 vector_v3.py 中 Vector 类 的 基础 上 导入 两 
个 模块 ， 添 加 __hash_ 方法 
























































from array import array 
import reprlib 

import math 

import functools # © 
import operator # @ 


class Vector: 
typecode = 'd' 





# 排版 需要 ， 省 略 了 很 多 行 ... 

















def _eq_ (self, other): # © 
return tuple(self) == tuple(other) 


def _hash_ (self): 
hashes = (hash(x) for x in self._components) # @ 
return functools.reduce(operator.xor, hashes, 0) # O 














# 省 略 了 很 多 行 .. . 











O 为 了 使 用 reduce 函数 ， 导 入 functools 模块 。 
@ 为 了 使 用 xor 函数 ， 导 入 operator 模块 。 


四 eq _ 方法 没 变 ; 我 把 它 列 出 来 是 为 了 把 它 和 __hash__ 方法 放 在 一 起 ， 因 为 它们 要 
结合 在 一 起 使 用 。 


O 创建 一 个 生成 器 表达 式 ， 惰 性 计算 各 个 分 量 的 散 列 值 。 


© 把 hashes 提供 给 reduce 函数 ， 使 用 xor 函数 计算 聚合 的 散 列 值 ， 第 三 个 参数 ，68 是 
初始 值 〈 参 见 下 面 的 警告 框 ) 。 





By 使 用 reduce 函数 时 最 好 提供 第 三 个 参数 ，reduce(function，iterable， 
initializer)， 这 样 能 避免 这 个 异常 : TypeError: reduce() of empty 
sequence with no initial value 〈 这 个 错误 消息 很 棒 ， 说 明了 问题 ， 还 提供 了 
解决 方法 ) 。 如 果 序 列 为 空 ，initializer 是 返回 的 结果 ; 否则 ， 在 归 约 中 使 用 它 
作为 第 一 个 参数 ， 因 此 应 该 使 用 恒 等 值 。 比 如 ， 对 +、| 和 ^ 来 说 ， initializer 
应 该 是 6， 而 对 * 和 & 来 说 ， 应 该 是 1。 


示例 10-12 中 实现 的 __hash__ 方法 是 一 种 映射 归 约 计算 ( 见 图 10-2) 。 
ee reduce 


图 10-2: 映射 归 约 : 把 函数 应 用 到 各 个 元 素 上 ， 生 成 一 个 新 序列 (映射 ，map) ， 然 
后 计算 聚合 值 ( 归 约 ，reduce) 





map 











映射 过 程 计算 各 个 分 量 的 散 列 值 ， 归 约 过 程 则 使 用 xor 运算 符 聚 合 所 有 散 列 值 。 把 生成 
器 表达 式 蔡 换 成 map 方法 ， 映 射 过 程 更 明显 : 





def _hash (self): 
hashes = map(hash, self. components) 


return functools.reduce(operator.xor, hashes) 














AI TE Python 2 中 使 用 map 函数 效率 低 些 ， 因 为 map 函数 要 使 用 结果 构建 一 个 列 
表 。 但 是 在 Python 3 中 ，map 函数 是 惰性 的 ， 它 会 创建 一 个 生成 器 ， 按 需 产 出 结 
内 存 一 一 这 与 示例 10-12 中 使 用 生成 器 表达 式 定 义 __hash_ 方法 的 原理 


既然 讲 到 了 归 约 函数 ， 那 就 把 前 面 草草 实现 的 __eq__ 方法 修改 一 下 ， 减 少 处 理 时 间 和 内 
存 用 量 一 一 至 少 对 大 型 向 量 来 说 是 这 样 。 如 示例 9-2 Pras, __eq__ 方法 的 实现 可 以 非常 


简洁 ， 





















































def _eq_ (self, other): 
return tuple(self) == tuple(other) 


Vector2d 和 Vector 都 可 以 这 样 做 ， 它 甚至 还 会 认为 Vector([1，2]) M (1, 2) 4H 

等 。 这 或 许 是 个 问题 ， 不 过 我 们 暂且 忽略 。6 可 是 ， 这 样 做 对 有 几 千 个 分 量 的 Vector 实 

例 来 说 ， 效 率 十 分 低下 。 上 述 实 现 方式 要 完整 复制 两 个 操作 数 ， 构 建 两 个 元 组 ， 而 这 么 做 

只 是 为 了 使 用 tuple 类 型 的 ”eq _ 方法 。 对 Vector2d (只 有 两 个 分 量 ) 来 说 ， 这 是 个 

捷径 ， 但 是 对 维 数 很 多 的 向 量 来 说 情况 就 不 同 了 。 示 例 10-13 中 比较 两 个 Vector 实例 
(或 者 比较 一 个 Vector 实例 与 一 个 可 和 迭代 对 象 ) 的 方式 更 好 。 























613.1 节 会 认真 对 待 Vector([1，2]) == (1, 2) 这 个 问题 。 











~ 10-13 ”为 了 提高 比较 的 效率 ，Vector. eq _ 方法 在 for 循环 中 使 用 zip K 





def eq _ (self, other): 
if len(self) != len(other): # © 
return False 
for a, b in zip(self, other): #@ 
ifa !=b: #0 
return False 
return True # © 








@ 如 果 两 个 对 象 的 长 度 不 一 样 ， 那 么 它们 不 相等 。 


人 @ zip 函数 生成 一 个 由 元 组 构成 的 生成 器 ， 元 组 中 的 元 素来 自 参数 传 入 的 各 个 可 和 迭代 对 
象 。 如 果 不 熟悉 zip 函数 ， 请 阅读 “出 色 的 zip 函数 ”附注 栏 。 前 面 比 较 长 度 的 测试 是 有 
必要 的 ， 因 为 一 旦 有 一 个 输入 耗 尽 ，zip 函数 会 立即 停止 生成 值 ， 而 且 不 发 出 警告 。 

















@ 只 要 有 两 个 分 量 不 同 ， 返 回 False, BEH. 
人 否则， 对 象 是 相等 的 。 


示例 10-13 的 效率 很 好 ， 不 过 用 于 计算 聚合 值 的 整个 for 循环 可 以 替换 成 一 行 al1l 函数 
调用 : 如 果 所 有 分 量 对 的 比较 结果 都 是 True， 那么 结果 就 是 True。 只 要 有 一 次 比较 的 结 
果 是 False, all 函数 就 返回 False。 使 用 all 函数 实现 “eq ”方法 的 方式 如 示例 10- 
14 FAN. 


























示例 10-14 使 用 zip 和 all 函数 实现 Vector. eq Wik, WH SAH 10-13 一 
样 

















def _eq_ (self, other): 
return len(self) == len(other) and all(a == b for a, b in zip(self, other)) 








注意 首先 要 检查 两 个 操作 数 的 长 度 是 否 相 同 ， 因 为 zip mi tL RE 
尽 时 停止 。 


我 们 选择 在 vector_v4.py 中 采用 示例 10-14 中 实现 的 eq_ 方法 。 





本 章 最 后 要 像 Vector2d 类 那样 ， 为 Vector 类 实现 format__ 方法 。 
出 色 的 zip 函数 


使 用 For 循环 达 代 元 素 不 用 处 理 索 引 变量 ， 还 能 避免 很 多 缺陷 ， 但 是 需要 一 些 特殊 
的 实用 函数 协助 。 其 中 一 个 是 内 置 的 zip 函数 。 使 用 zip 函数 能 轻松 地 并 行 迭 代 两 
个 或 更 多 可 和 迭代 对 象 ， 它 返回 的 元 组 可 以 拆 包 成 变量 ， 分 别 对 应 各 个 并 行 输入 中 的 一 
个 元 素 。 如 示例 10-15 所 示 。 






































~I zip 函数 的 名 字 取 自 拉链 系 结 物 (zipper fastener) ， 因 为 这 个 物品 用 于 把 
两 个 拉链 边 的 链 牙 咬合 在 一 起 ， 这 形象 地 说 明了 zip(left, right) 的 作 
用 。zip 函数 与 文件 压缩 没有 关系 。 








示例 10-15 zip 内 置 函 数 的 使 用 示例 





>>> zip(range(3), 'ABC') # © 

<zip object at @x10063ae48> 

>>> list(zip(range(3), 'ABC')) #@ 

[(@, 'A'), (1, 'B'), (2, 'C')] 

>>> list(zip(range(3), 'ABC', [@.0, 1.1, 2.2, 3.3])) #0 

[(@, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2)] 

>>> from itertools import zip_longest # @ 

>>> list(zip_longest(range(3), 'ABC', [0.0, 1.1, 2.2, 3.3], fillvalue=-1)) 
[(@, 'A', 0.0), (1, 'B', 1.1), (2, 'C', 2.2), (-1, -1, 3.3)] 














Q zip 函数 返回 一 个 生成 器 ， 按 需 生成 元 组 。 
四 为 了 和 输出， 构建 一 个 列表 ， 通 常 ， 我 们 会 和 迭代 生成 器 。 
O zip 有 个 奇怪 的 特性 : 当 一 个 可 和 迭代 对 象 耗 尽 后 ， 它 不 发 出 警告 就 停止 。 


@ itertools.zip_longest 函数 的 行为 有 所 不 同 ; 使 用 可 选 的 位 llvalue GRU 
值 为 None) 填充 缺失 的 值 ， 因 此 可 以 继续 产 出 ， 直 到 最 长 的 可 和 迭代 对 象 耗 尽 。 


为 了 避免 在 For 循环 中 手动 处 理 索引 变量 ， 还 经 常 使 用 内 置 的 enumerate 生成 器 函 
数 。 如 果 你 不 熟悉 enumerate 函数 ， 一 定 要 阅读 “Build-in Functions” X 

(https://docs.python.org/3/library/functions.html#enumerate) 。 内 置 的 zip 和 
enumerate 函数 ， 以 及 标准 库 中 其 他 几 个 生成 器 函数 在 14.9 节 讨 论 。 















































?7 至少 对 我 来 说 ， 这 是 奇怪 的 。 我 认为 ， 当 组 合 不 同 长 度 的 可 迭代 对 象 时 ，zip 应 该 抛 出 ValueError。 


10.7 Vector 类 第 5 版 : 格式 化 


Vector 类 的 format__ 方法 与 Vector2d 类 的 相似 ， 但 是 不 使 用 极 坐标 ， 而 使 用 球面 
坐标 〈 也 叫 超 球面 坐标 ) ， 因 为 Vector 类 支持 对 个 维度 ， 而 超过 四 维 后 ， 球 体 变 成 
了 “ 超 球体 ”。8 因此 ， 我 们 会 把 自 定义 的 格式 后 级 由 'p' 变 成 'h'。 


















































8Wolfram Mathworld 网 站 中 有 一 篇 介绍 超 球 体 的 文章 (http://mathworld.wolfram.com/Hypersphere.html〉; 维基 百科 会 
把 “ 超 球 体 ” 词 条 重 定向 到 “% 维 球体 ” 词 条 (http;//en.wikipedia.org/wiki/N-sphere) 。 




















a 9.5 节 说 过 ， 扩 展 格式 规范 微 语 言 
Chttps://docs.python.org/3/librarystring.html#formatspec) 时 ， 最 好 避免 重用 内 置 类 型 
支持 的 格式 代码 。 这 里 对 微 语言 的 扩展 还 会 用 到 浮 点 数 的 格式 代码 'eEfFgGn%'， 而 
且 保持 原意 ， 因 此 绝对 要 避免 重用 代码 。 整 数 使 用 的 格式 代码 有 'bcdoxxn' ， 字 符 
串 使 用 的 是 's' 。 在 Vector2d 类 中 ， 我 选择 使 用 'p' 表示 极 坐 标 。 使 用 'h' 表示 

超 球面 坐标 Chyperspherical coordinate) 是 个 不 错 的 选择 。 


例如 ， 对 四 维 空间 (len(v) == 4) 中 的 Vector 对 象 来 说 ，'h' 代码 得 到 的 结果 是 这 
RE: <Fr，01;1，0,，03>。 其 中 ，m 是 模 Cabs(v)) ， 余 下 三 个 数 是 角 坐 标 On D, 和 Dy。 
































下 面 几 个 示例 摘自 vector_v5.py 的 doctest〈 参 见 示 例 10-16) ， 是 四 维 球面 坐标 格式 : 





>>> format(Vector([-1, -1, -1, -1]), 'h') 

'<2.0, 2.0943951023931957, 2.186276035465284, 3.9269908169872414>' 
>>> format(Vector([2, 2, 2, 2]), '.3eh') 

'<4.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 


>>> format(Vector([@, 1, ©, @]), '@.5fh') 
'<1.00000, 1.57080, 0.00000, @.290000>' 











在 小 幅 改 动 ”format _ 方法 之 前 ， 我 们 要 定义 两 个 辅助 方法 : 一 个 是 angle(n)， 用 于 
计算 某 个 角 坐 标 〈 如 @i) ; 另 一 个 是 angles(), 返回 由 所 有 角 坐 标 构成 的 可 迭代 对 象 。 
我 们 不 会 讲解 其 中 涉及 的 数学 原理 ， 如 果 你 好 奇 的 话 ， 可 以 查看 维基 百科 中 的 “n 维 球 
体 ” 词 条 (https://en.wikipedia.org/wiki/N-sphere〉， 那 里 有 几 个 公式 ， 我 就 是 使 用 它们 把 
Vector 实例 分 量 数组 内 的 第 卡 儿 坐 标 转换 成 球面 坐标 的 。 


示例 10-16 是 vector_v5.py 脚本 的 完整 代码 ， 包 含 自 10.2 节 以 来 实现 的 所 有 代码 和 本 节 实 
现 的 自 定义 格式 。 


示例 10-16 ” vector v5.py: Vector 类 最 终 版 的 doctest 和 全 部 代码 ; 带 标 号 的 那 几 行 
是 为 了 支持 format__ 方法 而 添加 的 代码 















































A multidimensional ``Vector`` class, take 5 


A ``Vector`` is built from an iterable of numbers:: 


>>> Vector([3.1, 4.2]) 

Vector([3.1, 4.2]) 

>>> Vector((3, 4, 5)) 

Vector([3.0, 4.0, 5.0]) 

>>> Vector (range(1®@) ) 

Vector([@.@, 1.0, 2.0, 3.0, 4.0, ...]) 


Tests with two dimensions (same results as ~~ vector2d_v1.py ~):: 


>>> v1 = Vector([3, 4]) 

>>> X, y=vi 

>>> X, y 

(3.0, 4.0) 

>>> v1 

Vector ([3.0, 4.0]) 

>>> vi_clone = eval(repr(v1)) 

>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0) 

>>> octets = bytes(v1) 

>>> octets 

b ' d\ \ XOA \ \ XOA \ \ XOA \ \ XOA \ \ XBA \ XBA \ XABA \ XOA \ XBA \ \XAA\ XOA \ \ XAO \ \xOO\ \x100' 
>>> abs(v1) 

5.0 

>>> bool(v1), bool(Vector([@, @])) 
(True, False) 


Test of ``.frombytes()`` class method: 


>>> vi_clone = Vector. frombytes(bytes(v1) ) 
>>> vi_clone 

Vector([3.0, 4.0]) 

>>> v1 == vi_clone 

True 


Tests with three dimensions:: 


>>> v1 = Vector([3, 4, 5]) 

>>> X, y, Z= V1 

>>> X, y, Z 

(3.0, 4.0, 5.0) 

>>> v1 

Vector ([3.0, 4.0, 5.0]) 

>>> vi_clone = eval(repr(v1)) 
>>> v1 == vi_clone 

True 

>>> print(v1) 

(3.0, 4.0, 5.0) 

>>> abs(v1) # doctest:+ELLIPSIS 
7.071067811... 

>>> bool(v1), bool(Vector([@, ©, @])) 
(True, False) 


Tests with many dimensions:: 





>>> v7 = Vector(range(7) ) 

>>> v7 

Vector([@.0, 1.0, 2.0, 3.0, 4.0, ...]) 
>>> abs(v7) # doctest:+ELLIPSIS 
9.53939201... 


Test of ~~. bytes ~~ and ~~ .frombytes()~~ methods:: 


>>> v1 = Vector([3, 4, 5]) 

>>> vi_clone = Vector.frombytes(bytes(v1) ) 
>>> vi_clone 

Vector([3.0, 4.0, 5.0]) 

>>> v1 == vi_clone 

True 


Tests of sequence behavior:: 


>>> v1 = Vector([3, 4, 5]) 

>>> len(v1) 

3 

>>> v1[@], vi[len(v1)-1], v1[-1] 
(3.0, 5.0, 5.0) 


Test of slicing:: 


>>> v7 = Vector(range(7) ) 

>>> v7[-1] 

6.0 

>>> v7[1:4] 

Vector([1.0, 2.0, 3.0]) 

>>> v7[-1:] 

Vector ([6.0]) 

>>> v7[1,2] 

Traceback (most recent call last): 


TypeError: Vector indices must be integers 


Tests of dynamic attribute access: : 


>>> v7 = Vector(range(16)) 
>>> V7 .X 

0.0 

>>> V7.y, V7.Z, v7.t 

(1.0, 2.0, 3.0) 


Dynamic attribute lookup failures: : 


>>> v7.k 
Traceback (most recent call last): 


AttributeError: 'Vector' object has no attribute 'k' 
>>> v3 = Vector(range(3)) 

>>> v3.t 

Traceback (most recent call last): 





AttributeError: ‘Vector’ object has no attribute 't' 
>>> v3.spam 
Traceback (most recent call last): 


AttributeError: ‘Vector’ object has no attribute 'spam' 


Tests of hashing:: 


>>> v1 = Vector([3, 4]) 
>>> v2 = Vector([3.1, 4.2]) 
>>> v3 = Vector([3, 4, 5]) 


>>> v6 = Vector(range(6) ) 
>>> hash(v1), hash(v3), hash(v6) 
(7, 2, 1) 


Most hash values of non-integers vary from a 32-bit to 64-bit CPython build:: 


>>> import sys 
>>> hash(v2) == (384307168202284039 if sys.maxsize > 2**32 else 357915986) 
True 


Tests of ``format()`` with Cartesian coordinates in 2D:: 


>>> v1 = Vector([3, 4]) 
>>> format(v1) 

'(3.0, 4.0)' 

>>> format(v1, '.2') 
'(3.00, 4.00)' 

>>> format(v1, '.3e') 
'(3.000e+00, 4.000e+00)' 


Tests of ``format()`` with Cartesian coordinates in 3D and 7D:: 


>>> v3 = Vector([3, 4, 5]) 

>>> format(v3) 

'(3.0, 4.0, 5.0)' 

>>> format (Vector (range(7))) 

'(0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0)' 


Tests of ``format()`` with spherical coordinates in 2D, 3D and 4D:: 


>>> format(Vector([1, 1]), 'h') # doctest:+ELLIPSIS 
"<1.414213..., @.785398...>' 

>>> format(Vector([1, 1]), '.3eh') 

"<1.414e+00, 7.854e-01>' 

>>> format(Vector([1, 1]), '@.5fh') 

"<1.41421, @.7854@>' 

>>> format(Vector([1, 1, 1]), 'h') # doctest:+ELLIPSIS 
"<1.73205..., @.95531..., @.78539...>' 

>>> format(Vector([2, 2, 2]), '.3eh') 

"<3.464e+00, 9.553e-01, 7.854e-01>' 

>>> format(Vector([@, ©, @]), '@.5fh') 

'<0.00000, 0.00000, ©.00000> ' 

>>> format(Vector([-1, -1, -1, -1]), 'h') # doctest:+ELLIPSIS 





"<2.0, 2.09439..., 2.18627..., 3.92699...>' 
>>> format(Vector([2, 2, 2, 2]), '.3eh') 
'<4.000e+00, 1.047e+00, 9.553e-01, 7.854e-01>' 
>>> format(Vector([@, 1, ©, @]), '@.5fh') 
"<1.00000, 1.57080, 0.00000, ©.000090> ' 


from array import array 
import reprlib 

import math 

import numbers 

import functools 

import operator 

import itertools © 


class Vector: 
typecode = ‘d' 


def _ init__(self, components): 
self._components = array(self.typecode, components) 


def _ iter _ (self): 
return iter(self. components) 


def _ repr__ (self): 
components = reprlib.repr(self. components) 
components = components[components.find('['):-1] 
return 'Vector({})'.format (components) 


def _str (self): 
return str(tuple(self)) 


def _ bytes __ (self): 
return (bytes([ord(self.typecode)]) + 
bytes(self. components) ) 


def _eq_ (self, other): 
return (len(self) == len(other) and 
all(a == b for a, b in zip(self, other))) 


def _ hash__ (self): 
hashes = (hash(x) for x in self) 
return functools.reduce(operator.xor, hashes, @) 


def _abs_ (self): 
return math.sqrt(sum(x * x for x in self)) 


def _ bool_ (self): 
return bool(abs(self)) 


def _len_ (self): 
return len(self._components) 


def getitem (self, index): 
cls = type(self) 
if isinstance(index, slice): 
return cls(self._components[index]) 
elif isinstance(index, numbers.Integral): 





return self. components[ index] 

else: 
msg = '{. name } indices must be integers’ 
raise TypeError(msg.format(cls)) 


shortcut_names = '‘xyzt' 


def _ getattr (self, name): 

cls = type(self) 
if len(name) == 

pos = cls.shortcut_names.find(name) 

if 8 <= pos < len(self. components): 

return self. components[pos] 

msg = '{.__name__!r} object has no attribute {!r}' 
raise AttributeError(msg.format(cls, name) ) 


def angle(self, n): @ 
r = math.sqrt(sum(x * x for x in self[n:])) 
a = math.atan2(r, self[n-1]) 
if (n == len(self) - 1) and (self[-1] < ð): 
return math.pi * 2 - a 
else: 
return a 


def angles(self): © 
return (self.angle(n) for n in range(1, len(self))) 


def format (self, fmt_spec=''): 
if fmt_spec.endswith('h'): # 超 球 面 
fmt_spec = fmt_spec[:-1] 
coords = itertools.chain([abs(self)], 
self.angles()) @ 








AVA iy 





a 











outer fmt = '<{}>' © 
else: 

coords = self 

outer fmt = '({})' © 
components = (format(c, fmt spec) for c in coords) @ 
return outer_fmt.format(', '.join(components)) © 


@classmethod 

def frombytes(cls, octets): 
typecode = chr(octets[@]) 
memv = memoryview(octets[1:]).cast(typecode) 
return cls(memv) 








ONS _ format ”方法 中 使 用 chain 函数 ， 导 入 itertools 模块 。 





O fH An 维 球 体 ” 词 条 Chttp://en. wikipedia.org/wiki/N-sphere) 中 的 公式 计算 某 个 角 坐 标 。 


O 创建 生成 器 表达 式 ， 按 需 计 算 所 有 和 角 坐 标 。 

@ 使 用 itertools.chain 函数 生成 生成 器 表达 式 ， 无 缝 欠 代 向 量 的 模 和 各 个 角 双 
O 配置 使 用 尖 括 号 显示 球面 坐标 。 

@ 配置 使 用 圆 括号 显示 笛 卡 儿 坐 标 。 


























APR o 





O 创建 生成 器 表达 式 ， 按 需 格式 化 各 个 坐标 元 素 。 
O 把 以 逗号 分 隔 的 格式 化 分 量 插入 尖 括 号 或 圆 括号 。 








` 我 们 在 __format__. angle 和 angles 中 大 量 使 用 了 生成 器 表达 式 ， 不 过 我 
们 的 目的 是 让 Vector 类 的 _ format 方法 与 Vector2d 类 处 在 同一 水 平 上 。 第 14 
章 讨论 生成 器 时 会 使 用 Vector 类 中 的 部 分 代码 举例 ， 然 后 详细 说 明生 成 器 的 技巧 。 


本 章 的 任务 到 此 结束 。 第 13 章 会 改进 Vector 类 ， 让 它 支 持 中 缀 运算 符 。 本 章 的 目的 是 
探讨 如 何 编写 集合 类 广泛 使 用 的 几 个 特殊 方法 。 








10.8 ”本 章 小 结 


本 章 所 举 的 Vector 示例 故意 与 Vector2d Ff 





类 的 构造 方法 接受 











getitem 和 __ 


鸭子 类 型 语言 使 用 的 非 正式 接口 。 


然后 ， 我 们 说 明了 my_seq[a:b:c] Ay 


Fab 


iwA 











XA getitem_ 7 


Python 风格 的 序列 那样 i 


接 下 来 ， 我 们 为 Vect 
表示 法 。 这 一 点 通过 
vec.x = 7 这 样 

， 我 们 又 实现 了 
果 定 义 了 __getattr__ 
一 致 。 











实现 ”hash_ 








_ getattr 
的 写法 为 头 几 个 分 量 
方法 ， 通 过 它 禁 止 为 单字 母 属 | 


方法 特别 适 








法 处 理 。 
返回 新 的 Vector 实例 。 








EE 容 ， 不 过 二 者 的 构造 方 》 
一 个 可 迭代 的 对 象 ， 这 与 内 置 的 序列 类 型 一 样 。 
像 序列 ， 是 因为 它 实 现 了 


len__ 


后 的 工作 原理 : 
了 解 这 一 点 之 后 ， 我 们 让 Vector IEF 











方法 ， 借 此 ， 我 们 讨论 


























创建 slice(a，b 


去 签名 不 同 ，Vector 
Vector 的 行为 之 所 以 


人 了 协议 ， 这 是 


，C) 对 象 ， 














外 处 理 














or 实例 的 头 几 个 分 量 提供 





了 只 














方法 实现 。 
量 赋值 





里 








_ Setattr 
方法 ， 那 么 也 要 定义 




















Vector 类 的 最 后 一 ] 
次 ， 除 了 支持 笛 卡 儿 4 




















基础 上 重新 实现 


实现 这 一 功能 之 后 ， 用 户 会 
这 是 一 个 潜在 的 缺陷 。 











__setattr__ 方法， 这 样 





\ 读 访问 功能 ， 使 用 my_vec .x ix 





切片 ， 像 符合 


的 





想 通 过 


为 了 解决 这 个 问 
生 赋值 。 大 多 数 时候 ， 如 
才能 


避免 行为 不 





__has 


__format__ 








E 标 ， 我 们 还 支持 了 球面 4 





big. AY eM format 





—eq— 


合 使 用 functools.reduce 函数 ， 因 为 我 们 要 把 异 或 运算 符 ^ 
依次 应 用 到 各 个 分 量 的 散 列 值 上 ， 生 成 整个 向 量 的 聚合 散 列 值 。 在 
reduce 函数 之 后 ， 我 们 又 使 用 内 置 的 归 约 函数 all 实现 了 效率 更 高 的 


页 改进 是 在 Vector2d 的 





h ”方法 中 使 用 


方法 。 





方法 ， 这 一 
方法 及 其 辅助 





方法 ， 我 们 用 到 了 很 多 数学 知识 和 几 个 生成 器 ， 但 这 些 是 实现 细节 。 第 14 章 会 再 次 讨论 


生成 器 。 最 后 一 节 的 目的 是 支持 自 定 义 格式 ， 从 而 兑现 承诺 ， 让 Vector 与 Vector2d 3 











容 ， 此 外 还 能 做 更 多 的 习 
我 们 经 常 分 析 Python 标准 对 象 的 行为 ， 然 后 进行 模仿 ， 让 Vector 的 行为 


与 第 9 章 一 样 ， 
符合 Python 风格 。 





第 13 章 将 为 Vector 实现 几 个 中 组 运算 符 


[==] 
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三 





H o 








到 的 简单 多 了 ， 但 是 通过 了 解 Python 中 


识 将 更 进一步 。 
织 多 个 类 


日 Ave 
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cee te a 








三 个 关 ， 








RE 





。 第 13 章 使 用 的 数学 知识 比 angle() 方法 用 
运算 符 的 工作 方式 ， 我 们 对 面向 对 象 设计 的 认 
说 明 如 何 使 用 接口 和 继承 组 


10.9 ”延伸 阅读 


Vector 类 中 的 大 多 数 特殊 方法 在 第 9 章 定 义 的 Vector2d 类 中 也 有 ， 因 此 前 一 章 给 出 的 
延伸 阅读 材料 同样 适合 本 章 。 


强大 的 高 阶 函 数 reduce 也 叫 合拢 、 累 计 、 聚 合 、 压 缩 和 注入 。 更 多 信息 参见 维基 百科 中 
的 “Fold (higher-order function)” 词 条 (https://en.wikipedia.org/wiki/Fold (higher- 
order_function)) 。 这 篇 文章 展示 了 高 阶 函 数 的 用 途 ， 着 重 说 明了 有 具有 递归 数据 结构 的 函 
数 式 语言 。 这 篇 文章 中 还 有 一 个 表格 ， 列 出 了 很 多 编程 语言 中 起 合拢 作用 的 函数 。 


杂谈 






































协议 当 作 非 正式 的 接口 


议 不 是 Python 发 明 的 。Smalltalk 团队 ， 也 就 是 “面向 对 象 ” 的 发 明 者 ， 使 用 “协议 ”这 
词 表 示 现 在 我 们 称 之 为 接口 的 特性 。 某 些 Smalltalk 编程 环境 允许 程序 员 把 一 组 方 
标记 为 协议 ， 但 这 只 不 过 是 一 种 文档 ， 用 于 辅助 导航 ， 语 言 不 对 其 施加 特定 措施 。 
此 ， 辣 熟悉 正式 (而 且 编 译 器 会 施加 措施 ) 接口 的 人 解释 “协议 ”时 ， 我 会 简单 地 说 
它 是 “ 非 正式 的 接口 ”。 

动态 类 型 语言 中 的 既定 协议 会 自然 进化 。 所 谓 动态 类 型 是 指 在 运行 时 检查 类 型 ， 因 为 
方法 签名 和 变量 没有 静态 类 型 信息 。Ruby 是 一 门 重要 的 面向 对 象 动态 类 型 语言 ， 它 
也 使 用 协议 。 

在 Python 文档 中 ， 如 果 看 到 “文件 类 对 象 * 这 样 的 表述 ， 通 常 说 的 就 是 协议 。 这 是 一 
种 简短 的 说 法 ， 意 思 是 :“ 行 为 基本 与 文件 一 致 ， 实 现 了 部 分 文件 接口 ， 满 足 上 下 文 
相关 需求 的 东西 。” 

你 可 能 觉得 只 实现 协议 的 一 部 分 不 够 严谨 ， 但 是 这 样 做 的 优点 是 简单 。“Data 
Model” 一 章 的 3.3 节 Chttps://docs.python.org/3/reference/datamodel.html#special-method- 
names) 建议 : 


模仿 内 置 类 型 实现 类 时 ， 记 住 一 点 : 模仿 的 程度 对 建 模 的 对 象 来 说 合理 即 可 。 例 
如 ， 有 些 序列 可 能 只 需要 获取 单个 元 素 ， 而 不 必 提 取 切 片 。 


一 一 Python 语言 参考 手册 中 “Data Model” 一 章 


不 要 为 了 满足 过 度 设计 的 接口 契约 和 让 编译 器 开心 ， 而 去 实现 不 需要 的 方法 ， 我 们 要 
遵守 KISS 原则 Chttp://en.wikipedia.org/wiki/KISS principle) 。 


第 11 章 还 会 讨论 协议 和 接口 ， 这 正 是 那 一 章 的 主要 话题 。 
HS FR A AY) E 


我 相信 Ruby 社区 在 “蝎子 类 型 "这 个 术语 的 推广 过 程 中 起 了 主要 作用 ， 因 为 他 们 向 大 
量 Java 使 用 者 宣扬 了 这 个 说 法 。 但 是 ， 在 Ruby 或 Python 流行 起 来 之 前 ，Python 就 使 
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用 这 个 术语 了 。 根 据 维基 百科 ， 在 面向 对 象 编 程 中 较 早 使 用 鸭子 作 比 喻 的 人 是 Alex 
Martelli， 在 他 于 2000 年 7 月 26 日 发 到 Python-list 中 的 一 篇 文章 里 ; “polymorphism 
(was Re: Type checking in python?)” Chttps://mail.python.org/pipermai|/python-list/2000- 
July/046184.html) 。 本 章 开 头 引 用 的 那 句 话 就 出 自 那 篇 文章 。 如 果 你 想 知 道 “ 鸭 子 类 
型 ”这 个 术语 的 真正 起 源 ， 以 及 很 多 编程 语言 对 这 个 面向 对 象 概念 的 运用 ， 请 阅读 维 
基 百 科 中 的 “Ducktyping”" 词 条 Chttp://en.wikipedia.org/wiki/Duck typing) 。 


安全 的 _ format 方法， 增强 可 用 性 


实现 format ”方法 时 ， 我 们 没有 采取 措施 防范 Vector 实例 拥有 大 量 分 量 ， 不 过 
在 __repr _ 方法 中 我 们 使 用 reprlib 做 了 预防 。 这 是 因为 repr() 函数 用 于 调试 
和 记录 日 志 ， 所 以 必须 生成 可 用 的 输出 ; 而 format_ _ 方法 用 于 向 最 终 用 户 显 示 输 
出 ， Vector。 如 果 你 觉得 这 样 做 危险 ， 可 以 再 为 格式 规范 微 语 
言 实 现 一 个 扩展 。 


如 果 是 我 ， 我 会 这 么 做 : 默认 情况 下 ， 格 式 化 的 Vector 实例 显示 有 限 个 分 量 ， 比 如 
说 30 个 。 如 果 元 素数 量 超过 上 限 ， 默 认 的 行为 是 像 reprlib 那样 ， 截 断 超出 的 部 
分 ， 使 用 ... 表示 。 然 而 ， 如 果 格 式 说 明 符 后 面 有 特殊 的 * 代码 (意思 是 “全 

部 ”) ， 那 么 就 不 限制 显示 的 元 素数 量 。 因 此 ， 用 户 在 不 知情 的 情况 下 不 会 被 特别 长 
的 输出 吓 到 。 如 果 默 认 的 上 限 碍 事 ， 那 么 . . . 的 存在 对 用 户 是 个 提醒 ， 用 户 研究 文 
档 后 会 发 现 * 格式 代码 。 


如 果 你 实现 了 ， 请 向 本 书 的 GitHub 仓库 Chttps://github.com/fluentpython/example- 
code) 发 一 个 拉 取 请 求 。 


寻找 符合 Python 风格 的 求 和 方式 


就 像 “ 什 么 是 美 ?没有 确切 的 答案 一 样 , “什么 是 Python 风格 ?也 没有 标准 答案 。 如 果 回 
答 “ 地 道 的 Python” (我 通常 会 这 样 说 ) ， 不 能 让 人 100% 满意 ， 因 为 对 你 来 说 是 “地 

道 的 "， 在 我 看 来 却 可 能 不 是 。 但 我 可 以 肯定 的 是 ,，“ 地 道 * 并 不 是 指使 用 最 鲜 为 人 知 

的 语言 特性 。 


Python-list (https://mail.python.org/mailman/listinfo/python-list) 中 有 一 篇 发 表 于 2003 年 
4 月 的 话题 ， 题 为 "Pythonic Way to Sum n-th List 

Element?” (https://mail.python.org/pipermail/python-list/2003-April/218568.html) 。 这 个 
话题 与 本 章 讨 论 的 reduce 函数 有 关 。 


该 话题 的 发 起 人 Guy Middleton 说 他 不 喜欢 使 用 lambda 表达 式 ， 问 下 面 这 个 方案 有 
没有 办 法 改进 : ? 





































































































>>> my_list = [[1, 2, 3], [40, 50, 60], [9, 8, 7]] 
>>> import functools 


>>> functools.reduce(lambda a, b: a+b, [sub[1] for sub in my_list]) 
60 








这 段 代 码 有 很 多 习惯 用 法 : lambda. reduce 和 列表 推导 。 最 终 ， 这 可 能 会 变 成 人 气 
竞赛 ， 因 为 它 冒 犯 了 讨厌 lambda 的 人 和 看 不 上 列表 推导 的 人 一 一 这 两 种 人 都 很 多 。 











如 果 使 用 lambda， 或 许 就 不 应 该 使 用 列表 推导 一 一 过 滤 除 外 ， 但 这 不 是 过 滤 。 
下 面 是 我 给 出 的 方案 ， 这 能 讨 得 lambda 拥护 者 的 欢心 : 


>>> functools.reduce(lambda a, b: a + b[1], my_list, @) 
60 


我 没有 参与 那个 话题 ， 而 且 我 不 会 在 真实 的 代码 中 使 用 上 述 方案 ， 因 为 我 非常 不 喜欢 
lambda 表达 式 。 这 里 只 是 为 了 举例 说 明 不 使 用 列表 推导 怎么 做 。 


第 一 个 答案 是 Fernando Perez 给 出 的 ， 他 是 Python 的 创建 者 ， 他 的 答案 强调 了 
NumPy 支持 n 维 数 组 入 维 切 片 : 





























>>> import numpy as np 
>>> my_array = np.array(my_list) 


>>> np.sum(my_array[:, 1]) 
60 








我 觉得 Perez 的 方案 很 棒 ， 不 过 Guy Middleton E52 Paul Rubin 和 Skip Montanaro 给 出 
的 下 述 方案 : 





>>> import operator 
>>> functools.reduce(operator.add, [sub[1] for sub in my_list], 9) 
60 








随后 ，Evan Simpson 问 道 : “这 样 做 有 什么 错 ? ” 











>>> total = 6 

>>> for sub in my_list: 
total += sub[1] 

>>> total 

60 











许多 人 都 觉得 这 也 很 符合 Python 风格 。Alex Martelli 甚至 说 ，Guido 或 许 就 会 这 么 
做 。 


我 喜欢 Evan Simpson 的 代码 ， 不 过 也 喜欢 David Eppstein 对 此 给 出 的 评论 : 
如 果 你 想 计算 列表 中 各 个 元 素 的 和 ， 写 出 的 代码 应 该 看 起 来 像 是 在 “计算 元 素 之 
和 ”， 而 不 是 “迭代 元 素 ， 维 护 一 个 变量 t 再 执行 一 系列 求 和 操作 ”。 如 果 不 能 站 
在 一 定 高 度 上 表明 意图 ， 让 语言 去 关注 低层 操作 ， 那 么 要 高 级 语言 干 嘛 ? 

之 后 Alex Martelli 又 建议 : 


求 和 操作 经 常 需要 ， 我 不 介意 Python 提供 一 个 这 样 的 内 置 函数 。 但 是 ， 在 我 看 
X, “reduce(operator.add, …" 不 是 好 方法 〈 作 为 一 名 APL 老 程 序 员 和 FP 语言 的 爱 



























































好 者 ， 我 应 该 喜欢 ， 但 是 我 并 不 喜欢 ) 。 


随后 ，Alex 建议 提供 并 实现 了 sum() 函数 。 这 次 讨论 之 后 三 个 月 ，Python 2.3 就 内 置 
了 这 个 函数 。 因 此 ，Alex 喜欢 的 句法 变 成 了 标准 : 





























>>> sum([sub[1] for sub in my_list]) 
60 











下 一 年 年 末 《2004 年 1 月) Python 2.4 发 布 了 ， 这 一 版 引入 了 生成 器 表达 式 。 因 
此 ， 在 我 看 来 ，Guy Middleton 那个 问题 目前 最 符合 Python 风格 的 答案 是 : 


>>> sum(sub[1] for sub in my_list) 
60 


这 样 写 不 仅 比 使 用 reduce 函数 更 易 阅 读 ， 而 且 还 能 避免 空 序 列 导 致 的 陷 
阱 : sum([]) 的 结果 是 6， 就 这 么 简单 。 


在 这 次 讨论 中 ，Alex Martelli 指出 ，Python 2 内 置 的 reduce 函数 成 事 不 足 败 事 有 
余 ， 因 为 它 推荐 的 地 道 编程 方式 难以 理解 。 他 的 观点 最 有 说 服 力 : Python 3 把 
reduce MAK F functools 模块 中 了 。 


当然 ，functools.reduce 函数 仍 有 它 的 作用 。 实 现 Vector._hash_ _ 方法 时 我 就 
用 了 它 ， 我 觉得 我 的 实现 方式 算得 上 符合 Python 风格 。 





































































































?为 了 在 此 展示 ， 我 稍微 修改 了 这 段 代 码 ， 因 为 在 2003 年 ，reduce 是 内 置 函 数 ， 而 在 Python 3 中 要 导入 。 此 外 ， 我 把 
x 和 y 换 成 了 my_list 和 sub (HATH) 。 


















































Ble 接口 : 从 协议 到 抽象 基 类 


抽象 类 表示 接口 。1 





Bjarne Stroustrup 
CH 之 父 


| 1Bjarne Stroustrup, The Design and Evolution of C++ (Addison-Wesley, 1994), p. 278. 











本 章 讨论 的 话题 是 接口 : 从 鸭子 类 型 的 代表 特征 动态 协议 ， 到 使 接口 更 明确 、 能 验证 实 


` 


We FF GPL cE TH AZEZE (Abstract Base Class, ABC) 。 


如 果 用 过 Java、C# 或 类 似 的 语言 ， 你 会 觉得 鸭子 类 型 的 非 正 式 协 议 很 新 奇 。 但 是 对 长 时 
间 使 用 Python 或 Ruby 的 程序 员 来 说 ， 这 是 接口 的 “常规 ”方式 ， 新 知识 是 抽象 基 类 的 严格 
规定 和 类 型 检查 。Python 语言 诞生 15 年 后 ，Python 2.6 才 引 入 抽象 基 类 。 


本 章 先 说 明 Python 社区 以 往 对 接口 的 不 严谨 理解 ， 部 分 实现 接口 通常 被 认为 是 可 接受 
的 。 我 们 将 通过 几 个 示例 强调 鸭子 类 型 的 动态 本 性 ， 从 而 澄清 这 一 点 。 


接着 ， 我 邀请 Alex Martelli 写 了 一 篇 短文 ， 对 抽象 基 类 做 了 介绍 ， 还 为 Python 编程 的 一 
个 新 趋势 下 了 定义 。 本 章 余 下 的 内 容 专门 讲解 抽象 基 类 。 首 先 ， 本 章 说 明 抽 象 基 类 的 常见 
用 途 : 实现 接口 时 作为 超 类 使 用 。 然 后 ， 说 明 抽 象 基 类 如 何 检 查 具 体 子 类 是 否 符合 接口 定 
义 ， 以 及 如 何 使 用 注册 机 制 声明 一 个 类 实现 了 某 个 接口 ， 而 不 进行 子 类 化 操作 。 最 后 ， 说 
明 如 何 让 抽象 基 类 自动 “识别 ”任何 符合 接口 的 类 一 一 不 进行 子 类 化 或 注册 。 


我 们 将 实现 一 个 新 抽象 基 类 ， 看 看 它 的 运作 方式 。 但 是 ， 我 和 Alex Martelli 都 不 建议 你 自 
己 编写 抽象 基 类 ， 因 为 很 容易 过 度 设计 。 




































































Bey 抽象 基 类 与 描述 符 和 元 类 一 样 ， 是 用 于 构建 框架 的 工具 。 因 此 ， 只 有 少数 
Python 开发 者 编写 的 抽象 基 类 不 会 对 用 户 施 加 不 必要 的 限制 ， 让 他 们 做 无 用 功 。 


下 面 我 们 从 Python 风格 的 角度 探讨 接口 。 
































11.1 Python 文化 中 的 接口 和 协议 


引入 抽象 基 类 之 前 ，Python 就 已 经 非常 成 功 了 ， 即 便 现 在 也 很 少 有 代码 使 用 抽象 基 类 。 第 
1 章 就 已 经 讨论 了 鸭子 类 型 和 协议 。 在 10.3 节 ， 我 们 把 协议 定义 为 非 正 式 的 接口 ， 是 让 
Python 这 种 动态 类 型 语言 实现 多 态 的 方式 。 


接口 在 动态 类 型 语言 中 是 怎么 运作 的 呢 ? 首先 ， 基 本 的 事实 是 ，Python 语言 没有 
interface 关键 字 ， 而 且 除 了 抽象 基 类 ， 每 个 类 都 有 接口 : 类 实现 或 继承 的 公开 属性 
(方法 或 数据 属性 ) ， 包 括 特殊 方法 ， 如 ”getitem 或 _add 。 


按照 定义 ， 受 保护 的 属性 和 私有 属性 不 在 接口 中 : 即便 “ 受 保护 的 ”属性 也 只 是 采用 命名 约 
定 实现 的 (单个 前 导 下 划 线 ) ;私有 属性 可 以 轻松 地 访问 《参见 9.7 节 ) ， 原 因 也 是 如 
此 。 不 要 违背 这 些 约定 。 


另 一 方面 ， 不 要 觉得 把 公开 数据 属性 放 入 对 象 的 接口 中 不 妥 ， 因 为 如 果 需 要 ， 总 能 实现 读 
值 方法 和 设 值 方法 ， 把 数据 属性 变 成 特性 ， 使 用 obj .attr 句法 的 客户 代码 不 会 受到 影 
响 。 Vector2d 类 就 是 这 么 做 的 ， 示 例 11-1 是 Vector2d 类 的 第 一 版 ，x 和 y 是 公开 属 
性 。 


示例 11-1 vector2d_v0.py: x 和 y 是 公开 数据 属性 (代码 与 示例 9-2 相同 ) 















































































































































class Vector2d: 
typecode = ‘d' 


def _ init__(self, x, y): 
self.x = float(x) 
self.y = float(y) 


def _ iter _ (self): 
return (i for i in (self.x, self.y)) 















































# 下 面 是 其 他 方法 〈 这 个 代码 清单 将 其 省 略 了 ) 














在 示例 9-7 中 ， 我 们 把 x y 变 成 了 只 读 特 性 〈 见 示例 11-2) 。 这 是 一 项 重大 重 构 ， 但 是 
Vector2d 的 接口 基本 没 变 : 用 户 仍 能 读 取 my_vector.x 和 my_vector.y。 


示例 11-2 vector2d_v3.py: 使 用 特性 实现 x 和 y〔 完 整 的 代码 清单 参见 示例 9-9) 














class Vector2d: 
typecode = 'd' 


def _ init__(self, x, y): 
self. x = float(x) 
self. y = float(y) 


@property 
def x(self): 
return self. x 





@property 
def y(self): 
return self. y 


def _iter (self): 
return (i for i in (self.x, self.y)) 


























# 下 面 是 其 他 方法 〈 这 个 代码 清单 将 其 省 略 了 ) 















































关于 接口 ， 这 里 有 个 实用 的 补充 定义 : 对 象 公开 方法 的 子 集 ， 让 对 象 在 系统 中 扮演 特定 的 
角色 。Python 文档 中 的 “文件 类 对 象 " 或 “可 和 迭代 对 象 " 就 是 这 个 意思 ， 这 种 说 法 指 的 不 是 特 
定 的 类 。 接 口 是 实 现 特定 角色 的 方法 集合 ， 这 样 理 解 正 是 Smalltalk 程序 员 所 说 的 协议 ， 
其 他 动态 语言 社区 都 借鉴 了 这 个 术语 。 协 议 与 继承 没有 关系 。 一 个 类 可 能 会 实现 多 个 接 
口 ， 从 而 让 实例 扮演 多 个 角色 。 


协议 是 接口 ， 但 不 是 正式 的 (只 由 文档 和 约定 定义 ) ， 因 此 协议 不 能 像 正 式 接口 那样 施加 
限制 〈 本 章 后 面 会 说 明 抽 象 基 类 对 接口 一 致 性 的 强制 ) 。 一 个 类 可 能 只 实现 部 分 接口 ， 这 
是 允许 的 。 有 时 ， 某 些 API 只 要 求 “ 文 件 类 对 象 "* 返 回 字 节 序 列 的 .read() 方法 。 在 特定 
的 上 下 文中 可 能 需要 其 他 文件 操作 方法 ， 也 可 能 不 需要 。 


写作 本 书 时 ，Python 3 中 memoryview 的 文档 
(https://docs.python.org/3/library/stdtypes.html#typememoryview) 说 ， 它 能 处 理 “ 支 持 缓 冲 协 
议 的 对 象 ”， 不 过 缓冲 协议 的 文档 是 针对 C API 的 。bytearray 的 构造 方法 
Chttps://docs.python.org/3/library/fonctions.html#bytearray) 接受 “一 个 符合 缓冲 接口 的 对 
象 "。 如 今 ， 文 档 正在 改变 用 词 ， 使 用 “ 字 节 序列 类 对 象 " 这 样 更 加 友好 的 表述 。”* 我 指出 
这 后 是 为 了 强调 ， 对 Python 程序 员 来 说 ,，“X BOR OK 协议 "和 “X 接口 * 都 是 一 个 意 
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HSE, Issue 16518:‘add buffer protocol to glossary” (http//bugs.python.org/issue16518) 做 的 就 是 这 种 修改 ， 把 很 多 “支持 组 
冲 协议 /接口 /API 的 对 象 ? 改 成 了 “ 字 节 序列 类 对 象 "; “Other mentions of the buffer 
| protocol” Chttp//bugs.python.org/issue22581) 也 是 如 此 。 

















序列 协议 是 Python 最 基础 的 协议 之 一 。 即 便 对 象 只 实现 了 那个 协议 最 基本 的 一 部 分 ， 解 
释 器 也 会 负责 任 地 处 理 ， 如 下 一 节 所 示 。 




















11.2 Python 喜欢 序列 
Python 数据 模型 的 哲学 是 尽量 支持 基本 协议 。 对 序列 来 说 ， 即 便 是 最 简单 的 实现 ，Python 
也 会 力求 做 到 最 好 。 





























图 11-1 展示 了 定义 为 抽象 基 类 的 Sequence 正式 接口 。 


Container 
__ contains __ l 
__getitem_ 


contains ___ 


Iterable orl 
ter 











reversed | 
index 
count 














图 11-1: Sequence 抽象 基 类 和 collections.abe 中 相关 抽象 类 的 UML 类 图 ， 箭 头 
由 子 类 指向 超 类 ， 以 斜体 显示 的 是 抽象 方法 


现在 ， 看 看 示例 11-3 中 的 Foo 类 。 它 没有 继承 abc.Sequence， 而 且 只 实现 了 序列 协议 
的 一 个 方法 : getitem (没有 实现 len _ 方法 ) 。 


方法 ， 只 实现 序列 协议 的 一 部 分 ， 这 样 足够 访问 元 









































示例 11-3 定义 getitem _ 
A. AREH in 运算 符 了 








>>> class Foo: 
def _ getitem (self, pos): 
return range(@, 30, 10)[pos] 


>>> f = Foo() 

>>> F[1] 

10 

>>> for i in f: print(i) 


0 


20 

>>> 20 in f 
True 

>>> 15 in f 
False 


虽然 没有 __iter __ 方 法， 但 是 Foo 实例 是 可 迭代 的 对 象 ， 因 为 发 现 有 _ getitem 7 




















JEN, Python 会 调用 它 ， 传 入 从 © FERARI, SIE R 《这 是 一 种 后 备 机 
制 ) 。 尽管 没有 实现 __Ccontains__ 方 法， 但 是 Python 足够 智能 ， 能 迭代 Foo 实例 ， 
此 也 能 使 用 in 运算 符 : Python 会 做 全 面 检查 ， 看 看 有 没有 指定 的 元 素 。 


综 上 ， 鉴 于 序列 协议 的 重要 性 ， 如 果 没 有 _ iter 和 contains _ 77, Python 会 调 
FA __getitem 方法， 设法 让 迭代 和 in 运算 符 可 用 。 


第 1 章 定义 的 FrenchDeck 类 也 没有 继承 abc.Sequence， 但 是 实现 了 序列 协议 的 两 个 方 
法 : _getitem_ 和 len 。 如 示例 11-4 所 示 。 


示例 11-4 ”实现 序列 协议 的 FrenchDeck 类 《代码 与 示例 1-1 相同 ) 

































































import collections 
Card = collections.namedtuple('Card', ['rank', 'suit']) 


class FrenchDeck: 
ranks = [str(n) for n in range(2, 11)] + list('JQKA') 
suits = 'spades diamonds clubs hearts'.split() 


def _ init__(self): 
self._cards = [Card(rank, suit) for suit in self.suits 
for rank in self.ranks] 


def _len_ (self): 
return len(self._cards) 


def getitem (self, position): 
return self._cards[position] 








第 1 章 那些 示例 之 所 以 能 用 ， 大 部 分 是 由 于 Python 会 特殊 对 待 看 起 来 像 是 序列 的 对 象 。 
Paton PHD TCALWS ERA ARTES TERIS APR 22 RY 
HK. 


下 面 再 分 析 一 个 示例 ， 着 重 强调 协议 的 动态 本 性 。 





























11.3 使 用 猴子 补丁 在 运行 时 实现 协议 


示例 11-4 中 的 FrenchDeck 类 有 个 重大 缺陷 : 无 法 洗 牌 。 几 年 前 ， 第 一 次 编写 
FrenchDeck 示例 时 ， 我 实现 了 shuffle 方法 。 后 来 ， 我 对 Python 风格 有 了 深刻 理解 ， 
我 发 现 如 果 FrenchDeck 实例 的 行为 像 序列 ， 那 么 它 就 不 需要 shuffle 方法 ， 因 为 已 经 
有 random. shuffle 函数 可 用 ， 文 档 中 说 它 的 作用 是 “就 地 打 乱 序列 

x” Chttps://docs.python.org/3/library/random.html#random.shuffle) 。 















































外 如 果 遵守 既定 协议 ， 很 有 可 能 增加 利用 现 有 的 标准 库 和 第 三 方 代码 的 可 能 性 ， 
这 得 益 于 鸭子 类 型 。 


标准 库 中 的 random. shuffle 函数 用 法 如 下 : 

















>>> from random import shuffle 
>>> 1 = list(range(1®) ) 

>>> shuffle(1) 

>>> 1 

[5, 2, 9, 7, 8, 3, 1, 4, 6, 6] 








然而 ， 如 果 尝 试 打 乱 FrenchDeck 实例 ， 会 出 现 异 常 ， 如 示例 11-5 所 示 。 


示例 11-5 random. shuffle KAŽU BEF] GL FrenchDeck 实例 





>>> from random import shuffle 
>>> from frenchdeck import FrenchDeck 
>>> deck = FrenchDeck() 
>>> shuffle(deck) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File ".../python3.3/random.py", line 265, in shuffle 

x[i], x[j] = x[j], x[i] 

TypeError: 'FrenchDeck' object does not support item assignment 








BA EAB H, “'FrenchDeck' object does not support item 

assignment” ('FrenchDeck' 对 象 不 支持 为 元 素 赋值 ) 。 这 个 问题 的 原因 是 ，shuffle K 
数 要 调换 集合 中 元 素 的 位 置 ， 而 FrenchDeck 只 实现 了 不 可 变 的 序列 协议 。 可 变 的 序列 
还 必须 提供 ”setitem _ 方法 。 


Python 是 动态 语言 ， 因 此 我 们 可 以 在 运行 时 修正 这 个 问题 ， 甚 至 还 可 以 在 交互 式 控 制 台 
中 ， 修 正方 法 如 示例 11-6 所 示 。 


示例 11-6 为 FrenchDeck 打 猴 子 补丁 ， 把 它 变 成 可 变 的 ， 让 random. shuffle eh 
数 能 处 理 〈 接 续 示 例 11-5) 




































































>>> def set_card(deck, position, card): @ 
deck._cards[position] = card 


>>> FrenchDeck. setitem = set_card @ 

>>> shuffle(deck) © 

>>> deck[ :5] 

[Card(rank='3', suit='hearts'), Card(rank='4', suit='diamonds'), Card(rank='4', 
suit='clubs'), Card(rank='7', suit='hearts'), Card(rank='9', suit='spades')] 





定义 一 个 函数 ， 它 的 参数 为 deck、position 和 card. 
@ 把 那个 函数 赋值 给 FrenchDeck 类 的 ”setitem _ 属性 。 
© 现在 可 以 打 乱 deck 了 ， 因 为 FrenchDeck 实现 了 可 变 序列 协议 所 需 的 方法 。 


特殊 方法 ”setitem ”的 签名 在 Python 语言 参考 手册 的 “3.3.6. Emulating container 

types” (https://docs.python.org/3/reference/datamodel.html#emulating-container-types ) 中 定 
义 。 语 言 参 考 中 使 用 的 参数 是 self. key 和 value， 而 这 里 使 用 的 是 deck, position 
和 card。 这 么 做 是 为 了 告诉 你 ， 每 个 Python 方法 说 到 底 都 是 普通 函数 ， 把 第 一 个 参数 命 
名 为 self 只 是 一 种 约定 。 在 控制 台 会 话 中 使 用 那 几 个 参数 没 问 题 ， 不 过 在 Python 源码 文 
件 中 最 好 按照 文档 那样 使 用 self、key 和 value。 


这 里 的 关键 是 ，set_card 函数 要 知道 deck 对 象 有 一 个 名 为 “cards 的 属性 ， 而 且 
_cards 的 值 必须 是 可 变 序 列 。 然 后 ， 我 们 把 set_card 函数 赋值 给 特殊 方法 
_ setitem _ ， 从 而 把 它 依附 到 FrenchDeck 类 上 。 这 种 技术 叫 猴 子 补 丁 : 在 运行 时 修 
改 类 或 模块 ， 而 不 改动 源码 。 猴 子 补 丁 很 强大 ， 但 是 打 补 丁 的 代码 与 要 打 补 丁 的 程序 耦合 
十 分 紧密 ， 而 且 往 往 要 处 理 隐藏 和 没有 文档 的 部 分 。 

除了 举例 说 明 猴 子 补丁 之 外 ， 示 例 11-6 还 强调 了 协议 是 动态 的 : random.shuffle 函数 
不 关心 参数 的 类 型 ， 只 要 那个 对 象 实 现 了 部 分 可 变 序 列 协议 即 可 。 即 便 对 象 一 开始 没有 所 
需 的 方法 也 没关系 ， 后 来 再 提供 也 行 。 


目前 ， 本 章 讨 论 的 主题 是 “鸭子 类 型 >: 对 象 的 类 型 无 关 紧 要 ， 只 要 实现 了 特定 的 协议 即 
可 。 


前 面 给 出 的 抽象 基 类 图 表 是 为 了 展示 协议 与 抽象 基 类 的 文档 中 所 说 的 接口 之 间 的 关系 ， 但 
是 目前 为 止 还 没有 真正 继承 抽象 基 类 。 


在 接 下 来 的 几 节 中 ， 我 们 将 直接 使 用 抽象 基 类 ， 而 不 只 将 其 当 作文 档 。 


































































































11.4 Alex Martelli 7k & 


介绍 完 Python 常规 的 协议 风格 接口 后 ， 下 面 讨论 抽象 基 类 。 不 过 在 分 析 示 例 和 细节 之 
前 ， 我 们 要 看 Alex Martelli 写 的 一 篇 短文 。 这 篇 短文 说 明了 Python 为 什么 引入 抽象 基 


类 














` 非常 感谢 Alex Martelli。 本 书 引 用 最 多 的 就 是 他 说 的 话 ， 后 来 他 变 成 了 本 书 的 
技术 编辑 之 一 。 他 的 见解 已 经 非常 宝贵 了 ， 现 在 又 愿意 撰写 这 篇 短文 。Python 社区 有 
他 的 存在 真是 幸运 。 接 下 来 交 给 你 了 ，Alex ! 
































水 禽 和 抽象 基 类 
Alex Martelli #2 


维基 百科 Chttp://en.wikipedia.org/wiki/Duck typing#History) 说 是 我 协助 传播 了 “鸭子 
类 型 ”这 种 言 简 意 凡 的 说 法 《〈 即 忽略 对 象 的 真正 类 型 ， 转 而 关注 对 象 有 没有 实现 所 需 
的 方法 、 签 名 和 语义 ) 。 


对 Python 来 说 ， 这 基本 上 是 指 避 免 使 用 isinstance 检查 对 象 的 类 型 (更 别提 
type(foo) is bar 这 种 更 糟 的 检查 方式 了 ， 这 样 做 没有 任何 好 处 ， 甚 至 禁止 最 简 
单 的 继承 方式 ) 。 


总 的 来 说 ， 鸭 子 类 型 在 很 多 情况 下 十 分 有 用 ; 但 是 在 其 他 情况 下 ， 随 着 发 展 ， 通 常 
有 更 好 的 方式 。 事 情 是 这 样 的 .…… 


近代 ， 属 和 种 〈 包 括 但 不 限于 水 禽 所 属 的 鸭 科 ) 基本 上 是 根据 表 型 系统 学 
(phenetics) 分 类 的 。 表 征 学 关注 的 是 形态 和 举止 的 相似 性 .……. 主要 是 表 型 系统 学 特 
征 。 因 此 使 用 “鸭子 类 型 ”比喻 是 贴切 的 。 


然而 ， 平 行进 化 往往 会 导致 不 相关 的 种 产生 相似 的 特征 ， 形 态 和 举止 方面 都 是 如 此 ， 
但 是 生态 位 的 相似 性 是 侦 然 的 ， 不 同 的 种 仍 属 不 同 的 生态 位 。 编 程 语言 中 也 有 这 
种 “偶然 的 相似 性 ”比如 说 下 述 经 典 的 面向 对 象 编程 示例 : 



























































class Artist: 
def draw(self): ... 


class Gunslinger: 
def draw(self): ... 


class Lottery: 
def draw(self): ... 














显然 ， 只 因为 x 和 y 两 个 对 象 刚好 都 有 一 个 名 为 draw 的 方法 ， 而 且 调 用 时 不 用 传 入 











参数 ， 即 x.draw() 和 y.draw()， 远 远 不 能 确保 二 者 可 以 相互 调用 ， 或 者 具有 相同 
的 抽象 。 也 就 是 说 ， 从 这 样 的 调用 中 不 能 推导 出 语义 相似 性 。 相 反 ， 我 们 需要 一 位 渊 
博 的 程序 员 主 动 把 这 种 等 价 维持 在 一 定 层次 上 。 


生物 (和 其 他 学 科 ) 遇 到 的 这 个 问题 ， 人 迫切 需 要 〈 从 很 多 方面 来 说 ， 是 催生 ) 表征 学 
之 外 的 分 类 方式 解决 ， 即 支 序 系统 学 (cladistics) 。 这 种 分 类 学 主要 根据 从 共同 祖 

先 那 里 继承 的 特征 分 类 ， 而 不 是 单独 进化 的 特征 。( 近 些 年 ，DNA 测序 变 得 便宜 又 

快 ， 这 使 支 序 学 的 实用 地 位 变 得 更 高 。) 


例如 ， 草 雁 ( 以 前 认为 与 其 他 笋 类 比较 相似 ) 和 麻 鸭 (以 前 认为 与 其 他 蝎 类 比较 相 
Wh) 现在 被 分 到 Tadornidae 亚 科 (表明 三 者 的 相似 性 比 鸭 科 中 其 他 动物 高 ， 因 为 它们 
的 共同 祖先 比较 接近 ) 。 此 外 ，DNA 分 析 表 明 ， 白 怒 木 网 与 美洲 家 蝎 GR FRR) 
不 是 很 像 ， 至 少 没有 形态 和 举止 看 起 来 那么 像 ， 因 此 把 木 鸭 单独 分 成 了 一 属 ， 完 全 不 
在 Tadornidae 亚 科 中 。 


知道 这 些 有 什么 用 呢 ? 视 情况 而 定 ! 比如 ， 逮 到 一 只 水 禽 后 ， 决 定 如 何 京 制 才 最 美味 
时 ， 显 车 的 特征 (不 是 全 部 ， 例 如 一 身 羽 毛 并 不 重要 ) 主要 是 口感 和 风味 (过 时 的 表 
WEF) ， 这 比 文 序 学 重要 得 多 。 但 在 其 他 方面 ， 如 对 不 同 病 原 体 的 抗 性 (圈养 水 禽 还 
是 放养 ) ，DNA 接近 性 的 作用 就 大 多 了 .…… 


因此 ， 参 照 水 禽 的 分 类 学 演化 ， 我 建议 在 鸭子 类 型 的 基础 上 增加 白 匠 类 型 Cgoose 
typing) 。 

HARKE, RE cls 是 抽象 基 类 ， 即 cls 的 元 类 是 abc .ABCMeta， 就 可 以 使 用 
isinstance(obj, cls). 


collections. abc 中 有 很 多 有 用 的 抽象 类 〈Python 标准 库 的 numbers 模块 中 还 有 一 


些 ) 。 






































































































































与 具体 类 相 比 ， 抽 象 基 类 有 很 多 理论 上 的 优点 (例如 ， 参 阅 Scott Meyer 写 的 《More 
Effective CH: 35 个 改善 编程 与 设计 的 有 效 方 法 (中 文 版 )》 的 “条 球 33: 将 非 尾 端 
类 设计 为 抽象 类 ”， 英 文 版 见 
http://ptgmedia.pearsoncmg.com/images/020163371x/items/item33.html) , Python 的 抽象 
基 类 还 有 一 个 重要 的 实用 优势 : 可 以 使 用 register 类 方法 在 终端 用 户 的 代码 中 把 某 
个 类 “声明 ”为 一 个 抽象 基 类 的 “虚拟 ” 子 类 〈 为 此 ， 被 注册 的 类 必须 满足 抽象 基 类 对 方 
法 名 称 和 签名 的 要 求 ， 最 重要 的 是 要 满足 底层 语义 契约 ; 但 是 ， 开 发 那个 类 时 不 用 了 
解 抽象 基 类 ， 更 不 用 继承 抽象 基 类 ) 。 这 大 大 地 打破 了 严格 的 强 耦 合 ， 与 面向 对 象 编 
程 人 员 掌 握 的 知识 有 很 大 出 入 ， 因 此 使 用 继承 时 要 小 心 。 


有 时， 为 了 让 抽象 基 类 识别 子 类 ， 甚 至 不 用 注册 。 
其 实 ， 抽 象 基 类 的 本 质 就 是 几 个 特殊 方法 。 例 如 : 









































>>> class Struggle: 
def _len_ (self): return 23 


>>> from collections import abc 
>>> isinstance(Struggle(), abc.Sized) 


True 











可 以 看 出 ， 无 需 注 册 ，abc.Sized 也 能 把 Struggle 识别 为 自己 的 子 类 ， 只 要 实现 

了 特殊 方法 len__ 即 可 〈 要 使 用 正确 的 句法 和 话 义 实现 ， 前 者 要 求 没 有 参数 ， 后 

者 要 求 返 回 一 个 非 负 整数 ， 指 明 对 象 的 长 度 ， 如 果 不 使 用 规定 的 句法 和 语义 实现 特殊 
方法 ， 如 __len __， 会 导致 非常 严重 的 问题 ) 。 


最 后 我 想 说 的 是 : 如 果实 现 的 类 体现 了 numbers、collections.abc 或 其 他 框架 中 
抽象 基 类 的 概念 ， 要 么 继承 相应 的 抽象 基 类 〈 必 要 时 ) ， 要 么 把 类 注册 到 相应 的 抽象 
基 类 中 。 开 始 开发 程序 时 ， 不 要 使 用 提供 注册 功能 的 库 或 框架 ， 要 自己 动手 注册 : 如 
果 必 须 检 查 参数 的 类 型 (这 是 最 常见 的 ) ， 例 如 检查 是 不 是 “序列 *”， 那 就 这 样 做 : 


isinstance(the_arg, collections.abc.Sequence) 


此 外 ， 不 要 在 生产 代码 中 定义 抽象 基 类 〔〈 或 元 类 ) .…… 如 果 你 很 想 这 样 做 ， 我 打赌 
可 能 是 因为 你 想 “ 找 茬 "， 刚 拿 到 新 工具 的 人 都 有 大 干 一 场 的 冲动 。 如 果 你 能 避 开 这 些 
深奥 的 概念 ， 你 〈 以 及 未 来 的 代码 维护 者 ) 的 生活 将 更 愉快 ， 因 为 代码 会 变 得 简洁 明 
J. He! 


3 当然 ， 你 还 可 以 自己 定义 抽象 基 类 ， 但 是 我 不 建议 高 级 Python 程序 员 之 外 的 人 这 么 做 ， 同 样 ， 我 也 不 建议 你 自己 所 
义 元 类 ..…….. 我 说 的 “高 级 Python 程序 员 ”* 是 指 对 Python 语言 的 一 招 一 式 都 了 如 指 掌 ， 即 便 对 这 类 人 来 说 ， 抽 象 基 类 和 元 
类 也 不 是 常用 工具 。 如 此 “深层 次 的 元 编程 "， 如 果 可 以 这 么 讲 的 话 ， 适 合 框 架 的 作者 使 用 ， 这 样 便于 众多 不 同 的 开发 
队 独 立 扩展 框架 .………. 真正 需要 这 么 做 的 “高 级 Python 程序 员 ” 不 超过 1%. Alex Martelli 





































































































































































































BR J teh ARKE” Z Ih, Alex 还 指出 ， 继 承 抽象 基 类 很 简单 ， 只 需要 实现 所 需 的 方 
法 ， 这 样 也 能 明确 表明 开发 者 的 意图 。 这 一 意图 还 能 通过 注册 虚拟 子 类 来 实现 。 


此 外 ， 使 用 isinstance 和 issubclass 测试 抽象 基 类 更 为 人 接受 。 过 去 ， 这 两 个 函数 用 
来 测试 鸭子 类 型 ， 但 用 于 抽象 基 类 会 更 灵活 。 毕 竟 ， 如 果 某 个 组 件 没 有 继承 抽象 基 类 ， 事 
后 还 可 以 注册 ， 让 显 式 类 型 检查 通过 。 


然而 ， 即 便 是 抽象 基 类 ， 也 不 能 小 用 isinstance 检查 ， 用 得 多 了 可 能 导致 代码 异味 ， 
即 表 明 面 向 对 象 设计 得 不 好 。 在 一 连 串 if/elif/elif 中 使 用 isinstance 做 检查 ， 然 
后 根据 对 象 的 类 型 执行 不 同 的 操作 ， 通 常 是 不 好 的 做 法 ;此 时 应 该 使 用 多 态 ， 即 采用 一 
让 解释 器 把 调用 分 派 给 正确 的 方法 ， 而 不 使 用 if/elif/elif 块 硬 编 
by IRIE $E; o 





















































~ 具体 使 用 时 ， 上 述 建议 有 一 个 常见 的 例外 : 有 些 Python API 接受 一 个 字符 串 或 
字符 串 序 列 ， 如 果 只 有 一 个 字符 串 ， 可 以 把 它 放 到 列表 中 ， 从 而 简化 处 理 。 因 为 字符 
串 是 序列 类 型 ， 所 以 为 了 把 它 和 其 他 不 可 变 序列 区 分 开 ， 最 简单 的 方式 是 使 用 


isinstance(x，str) 检查 。4 
































4 可 异 ， 在 Python 3.4 中 没有 能 把 字符 串 和 元 组 或 其 他 不 可 变 序列 区 分 开 的 抽象 基 类 ， 因 此 必须 测试 stre Æ Python 2 
| 中 ，basestr 类 型 可 以 协助 这 样 的 测试 。basestr 不 是 抽象 基 类 ， 但 它 是 str 和 unicode 的 超 类 ; 然而 ，Python 3 把 
pasestr 去 掉 了 。 奇 怪 的 是 ，Python 3 中 有 个 collections.abc.ByteString 类 型 ， 但 是 它 只 能 检测 bytes 和 
































bytearray 类 型 。 


另 一 方面 ， 如 果 必 须 强 制 执 行 API 契约 ， 通 常 可 以 使 用 isinstance 检查 抽象 基 类 。“ 老 
兄 ， 如 果 你 想 调用 我 ， 必 须 实 现 这 个 "， 正 如 本 书 技术 审 校 Lennart Regebro 所 说 的 。 这 对 
采用 插入 式 架构 的 系统 来 说 特别 有 用 。 在 框架 之 外 ， 鸭 子 类 型 通常 比 类 型 检查 更 简单 ， 也 
更 灵活 。 


例如 ， 本 书 有 几 个 示例 要 使 用 序列 ， 把 它 当 成 列表 处 理 。 我 没有 检查 参数 的 类 型 是 不 是 
1ist， 而 是 直接 接受 参数 ， 立 即使 用 它 构建 一 个 列表 。 这 样 ， 我 束 可 以 接受 任何 可 迭代 
对 象 ， 如 果 参 数 不 是 可 迭代 对 象 ， 调 用 立即 失败 ， 并 且 提 供 非 常 清晰 的 错误 消息 。 本 章 后 
面 示例 11-13 中 的 代码 就 是 这 么 做 的 。 当 然 ， 如 果 序 列 太 长 或 者 需要 就 地 修改 序列 而 导致 
无 法 复制 参数 ， 就 不 能 采用 这 种 方式 ， 此 时 ， 使 用 isinstance(x, 
abc.MutableSequence) 更 好 。 如 果 可 以 接受 任何 可 迭代 对 象 ， 也 可 以 调用 iter(x) K 
数 获得 一 个 迭代 器 ， 详 情 参 见 14.1.1 节 。 


模仿 

collections.namedtuple (https://docs.python.org/3/library/collections.html#collections.nan 
处 理 Field names 参数 的 方式 也 是 一 例 : field_names 的 值 可 以 是 单个 字符 串 ， 以 空格 
或 逗号 分 陋 标 识 符 ， 也 可 以 是 一 个 标识 符 序 列 。 此 时 可 能 想 使 用 isinstance， 但 我 会 使 
用 鸭子 类 型 ， 如 示例 11-7 所 示 。5 













































































5 这 段 代 码 摘自 示例 21-2。 














示例 11-7 使 用 鸭子 类 型 处 理 单个 字符 串 或 由 字符 串 组 成 的 可 帮 代 对 象 














try: 0 

field_names = field_names.replace(',', ' ').split() @ 
except AttributeError: © 

pass @ 
field_names = tuple(field_ names) © 











@ 假设 是 单个 字符 串 〈EAFP 风格 ， 即 “取得 原谅 比 获得 许可 容易 ”) 。 
O 把 过 号 蔡 换 成 空格 ， 然 后 拆 分 成 名 称 列 表 。 


© 抱歉 ，field_names 看 起 来 不 像 是 字符 串 ..……. 没 有 .replace 方法 ， 或 者 返回 值 不 能 
使 用 .split 方法 拆 分 。 


O 假设 已 经 是 由 名 称 组 成 的 可 和 迭代 对 象 了 。 

O 为 了 确保 的 确 是 可 迭代 对 象 ， 也 为 了 保存 一 份 副本 ， 使 用 所 得 值 创建 一 个 元 组 。 

在 那 篇 短文 的 最 后 ，Alex 多 次 强调 ， 要 抑制 住 创建 抽象 基 类 的 冲动 。 滥 用 抽象 基 类 会 造 
成 灾难 性 后 果 ， 表 明 语言 太 注 重 表面 形式 ， 这 对 以 实用 和 务实 著称 的 Python 可 不 是 好 
事 。 在 审阅 本 书 的 过 程 中 ，Alex Sid: 

抽象 基 类 是 用 于 封装 框架 引入 的 一 般 性 概念 和 抽象 的 ， 例 如 “一 个 序列 ”和 “一 个 确切 

















































































































的 数 "。 读者) 基本 上 不 需要 自己 编写 新 的 抽象 基 类 ， 只 要 正确 使 用 现 有 的 抽象 基 
类 ， 就 能 获得 99.9% 的 好 处 ， 而 不 用 冒 着 设计 不 当时 致 的 巨大 风险 。 


下 面 通过 实例 讲解 白 笋 类 型 。 























11.5 定义 抽象 基 类 的 子 类 


我 们 将 遵循 Martelli 的 建议 ， 先 利用 现 有 的 抽象 基 类 
(collections.MutableSequence) ， 然 后 再 斗 胆 自己 定义 。 在 示例 11-8 中 ， 我 们 明 

















确 把 FrenchDeck2 声明 为 collecti 
类 


import collections 


Card = collections.namedtuple('Card', [' 


ranks = 
suits = 
def _ init__(self): 

self._cards = [Card(rank, suit) 


def _len_ (self): 

return len(self._cards) 
def _ getitem_ (self, position): 
return self._cards[position] 


def 
self._cards[position] = value 
def 


__delitem_(self, position): # 


del self. _cards[position] 


def insert(self, position, value): 





@ 为 了 支持 洗 牌 ， 只 需 实 现 setitem__ 方法 


@ 但 是 继承 MutableSequence 的 类 必 


_ setitem (self, position, value): 














ons.MutableSequence 的 子 类 。 


rank', 'suit']) 


class FrenchDeck2(collections.MutableSequence): 
[str(n) for n in range(2, 11)] + list('JQKA') 
"spades diamonds clubs hearts'.split() 


for suit in self.suits 
for rank in self.ranks] 


+o 


© 


# © 


self. cards.insert(position, value) 








须 实现 _ delitem _ 方法 ， 这 是 





MutableSequence 类 的 一 个 抽象 方法 








Q 此 外 ， 还 要 实现 insert 方法 ， 这 是 MutableSequence 类 的 第 三 个 抽象 方法 








SARL CIF 











时 实例 化 FrenchDeck2 类 时 才 会 真正 检查 。 因 此 ， 如 果 没 有 正 胡 


~o 


示例 11-8 frenchdeck2.py: FrenchDeck2, collections.MutableSequence 的 子 





N6 























i frenchdeck2.py 模块 时 ) , Python 不 会 检查 抽象 方法 的 实现 ， 在 运行 
外 实现 某 个 抽象 方法 ， 





Python 会 抛 出 TypeError 异常 ， 并 把 错误 消息 设 为 "Can't instantiate abstract 
class FrenchDeck2 with abstract methods ”delitem ，insert"。 正 是 这 个 原因 ， 即 

















MutableSequence 抽象 基 类 需要 它 介 




















Jo 


便 FrenchDeck2 类 不 需要 delitem I insert 提供 的 行为 ， 也 要 实现 ， 因 为 





如 图 11-2 Fras, Sequence 和 MutableSequence 抽象 基 类 的 方法 不 全 是 抽象 的 。 


MutableSequence 
setitem ~ 
__ delitem 


—getitem__ insert 


lterable — contains _ append 


reverse 
extend 
pop 
remove 
__jadd__ 


11-2: MutableSequence 抽象 基 类 和 collections.abe 中 它 的 超 类 的 UML 类 图 
(箭头 由 子 类 指向 祖先 ;以 斜体 显示 的 名 称 是 抽象 类 和 抽象 方法 ) 


FrenchDeck2 从 Sequence 继承 了 几 个 拿 来 即 用 的 有 具体 方 
法 : _ contains 、 iter 、 __reversed__. index 和 count. FrenchDeck2 从 
MutableSequence 继承 了 append, extend. pop. remove 和 iadd 。 


在 collections.abc 中 ， 每 个 抽象 基 类 的 具体 方法 都 是 作为 类 的 公开 接口 实现 的 ， 因 此 
不 用 知道 实例 的 内 部 接口 。 


一 "er 一 


__reversed__ 
index 
count 











A 要 想 实现 子 类 ， 我 们 可 以 覆盖 从 抽象 基 类 中 继承 的 方法 ， 以 更 高 效 的 方式 重新 
实现 。 例 如 ，__contains__ 方法 会 全 面 扫 描 序列 ， 可 是 ， 如 果 你 定义 的 序列 按 顺 序 
呆 存 元 素 ， 那 就 可 以 重新 定义 contains _ 方 法， 使 用 bisect 函数 做 二 分 查找 
《参见 2.8 节 ) ， 从 而 提升 搜索 速度 。 


为 了 充分 使 用 抽象 基 类 ， 我 们 要 知道 有 哪些 抽象 基 类 可 用 。 接 下 来 介绍 集合 抽象 基 类 。 


























11.6 标准 库 中 的 抽象 基 类 
从 Python 2.6 开始 ， 标 准 库 提供 了 抽象 基 类 。 大 多 数 抽象 基 类 在 collections.abc 模块 


中 定义 ， 不 过 其 他 地 方 也 有 。 例 如 ，numbers 和 io 包 中 有 一 些 抽象 基 类 。 但 
是 ，collections.abc 中 的 抽象 基 类 最 常用 。 我 们 来 看 看 这 个 模块 中 有 哪些 抽象 基 类 。 


11.6.1 collections.abc 模 块 中 的 抽象 基 类 























a 标准 库 中 有 两 个 名 为 abc 的 模块 ， 这 里 说 的 是 collections .abc。 为 了 减少 
加 载 时 间 ，Python 3.4 在 collections 包 之 外 实现 这 个 模块 (在 

Lib/_collections abc.py 

中 ，https://hg.python.org/cpython/file/3.4/Lib/_collections abc.py) ， 因 此 要 与 
collections 分 开导 入 。 另 一 个 abc tikit abc (RH 

py» https://hg.python. Re 4/Lib/abc.py) ， 这 里 定义 的 是 abc. ABC 
。 每 个 抽象 基 类 都 依赖 这 个 类 ， 但 是 不 用 导入 它 ， 除 非 定义 新 抽象 基 类 。 


Python 3.4 在 collections. abc 模块 中 定义 了 16 个 抽象 基 类 ， 简 要 的 UML 类 图 (没有 
属性 名 称 ) 如 图 11-3 所 示 。collections.abc 的 官方 文档 中 有 个 不 错 的 表格 
(https://docs.python.org/3/library/collections.abc.html#collections-abstract-base-classes ) ， 对 
各 个 抽象 基 类 做 了 总 结 ， A 以 及 各 个 基 类 提供 的 抽象 方法 和 具体 方 
法 ( 称 为 “混入 方法 ”) 。 图 11-3 中 有 很 多 多 重 继 承 。 我 们 将 在 第 12 章 着 重 说 明 多 重 继 
承 ， 讨 论 抽 象 基 类 时 通 HAZEL EAR, a 


























































































































Java 认为 多 重 继承 有 危害 ， 因 此 没有 提供 支持 ， 但 是 提供 了 接口 : Java 的 接口 可 以 扩展 多 个 接口 ， 而 且 Java 的 类 可 
以 实现 多 个 接口 。 
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1 
图 11-3: collections.abc 模块 中 各 个 抽象 基 类 的 UML 类 图 


下 面 详 述 图 11-3 中 那 一 群 基 类 。 

















Iterable, Container 和 Sized 
各 个 集合 应 该 继承 这 三 个 抽象 基 类 ， 或 者 至 少 实现 兼容 的 协议 。Iterable 通过 


_ iter _ DXF, Container 通过 _ contains _ 方法 支持 in 运算 符 ，Sized 
通过 ”len ”方法 支持 len() 函数 。 




















Sequence. Mapping 和 Set 


这 三 个 是 主要 的 不 可 变 集 合 类 型 ， 而 且 各 上 自 都 有 可 变 的 子 类 。Mutablesequence 的 
详细 类 图 见 图 11-2; MutableMapping 和 MutableSet 的 类 图 在 第 3 B+ (ILA 3-1 和 图 
3-2) o 



































MappingView 





在 Python 3 中 ， 映 射 方法 .items()、.keys() 和 .values() 返回 的 对 象 分 别 是 
ItemsView, KeysView 和 ValuesView 的 实例 。 前 两 个 类 还 从 Set 类 继承 了 丰富 的 接 
口 ， 包 含 3.8.3 节 所 述 的 全 部 运算 符 。 

Callable fll Hashable 

这 两 个 抽象 基 类 与 集合 没有 太 大 的 关系 ， 只 不 过 因为 collections .abc 是 标准 库 中 

定义 抽象 基 类 的 第 一 个 模块 ， 而 它们 又 太 重 要 了 ， 因 此 才 把 它们 放 到 collections .abc 


模块 中 。 我 从 未 见 过 Callable 5% Hashable 的 子 类 。 这 两 个 抽象 基 类 的 主要 作用 是 为 内 
置 函数 isinstance 提供 支持 ， 以 一 种 安全 的 方式 判断 对 象 能 不 能 调用 或 散 列 。” 




































































7 车 想 检查 是 否 能 调用 ， 可 以 使 用 内 置 的 callable() 函数 ， 但 是 没有 类 似 的 hashable() 函数 ， 因 此 测试 对 象 是 否 下 
散 列 ， 最 好 使 用 isinstance(my_obj, Hashable). 



























































Iterator 
注意 它 是 Iterable 的 子 类 。 我 们 将 在 第 14 章 详 细 讨论 。 
继 collections.abc 之 后 ， 标 准 库 中 最 有 用 的 抽象 基 类 包 是 numbers。 下 面 就 来 介绍 。 
11.6.2 ”抽象 基 类 的 数字 塔 
numbers 包 (https://docs.python.org/3/library/numbers.html〉 定 义 的 是 “数字 塔 *( 即 各 个 抽 


象 基 类 的 层次 结构 是 线性 的 ) ， 其 中 Number 是 位 于 最 顶端 的 超 类 ， 随 后 是 Complex + 
类 ， 依次 往 下 ， 最 底 端 是 Integral 类 : 





e Number 

e Complex 

e Real 

e Rational 

e Integral 
因此 ， 如 果 想 检查 一 个 数 是 不 是 整数 ， 可 以 使 用 isinstance(x， 
numbers.Integral)， 这 样 代码 就 能 接受 int. bool (Cint 的 子 类 ) ， 或 者 外 部 库 使 用 
numbers 抽象 基 类 注册 的 其 他 类 型 。 为 了 满足 检查 的 需要 ， 你 或 者 你 的 API 的 用 户 始终 
可 以 把 兼容 的 类 型 注册 为 numbers .Integral 的 虚拟 子 类 。 
与 之 类 似 ， 如 果 一 个 值 可 能 是 浮 点 数 类 型 ， 可 以 使 用 isinstance(x，numbers .Real) 


检查 。 这 样 代 码 就 能 接受 bool、int、float、fractions.Fraction， 或 者 外 部 库 (如 
NumPy， 它 做 了 相应 的 注册 ) 提供 的 非 复数 类 型 。 


























By decimal.Decimal 没有 注册 为 numbers .Real 的 虚拟 子 类 ， 这 有 点 奇怪 。 
没 注册 的 原因 是 ， 如 果 你 的 程序 需要 Decimal 的 精度 ， 要 防止 与 其 他 低 精 度数 字 类 


了 解 一 些 现 有 的 抽象 基 类 之 后 ， 我 们 将 从 零 开 始 实现 一 个 抽象 基 类 ， 然 后 实际 使 用 ， 以 此 
实践 白 鹅 类型。 这 么 做 的 目的 不 是 鼓励 每 个 人 都 立即 开始 定义 抽象 基 类 ， 而 是 教 你 怎么 阅 
读 标 准 库 和 其 他 包 中 的 抽象 基 类 源码 。 




















11.7 定义 并 使 用 一 个 抽象 基 类 


为 了 证 明 有 必要 定义 抽象 基 类 ， 我 们 要 在 框架 中 找到 使 用 它 的 场景 。 想 象 一 下 这 个 场景 : 
你 要 在 网 站 或 移动 应 用 中 显示 随机 广告 ， 但 是 在 整个 广告 清单 轮转 一 过 之 前 ， 不 重复 显示 
广告 。 假 设 我 们 在 构建 一 个 广告 管理 框架 ， 名 为 ADAM。 它 的 职责 之 一 是 ， 支 持 用 户 提 供 
随机 挑选 的 无 重复 类 。5 为 了 让 ADAM 的 用 户 明确 理解 “随机 挑选 的 无 重复 "组 件 是 什么 意 
思 ， 我 们 将 定义 一 个 抽象 基 类 。 


5 客户 可 能 要 审查 随机 发 生 器 ， 或 者 代理 想 作 浆 .…… 谁 知道 呢 ! 

受到 “* 栈 ?和 “队列 ”《〈 以 物体 的 排放 方式 说 明 抽 象 接口 ) 局 发 ， 我 将 使 用 现实 世界 中 的 物品 
命名 这 个 抽象 基 类 : 宾 果 机 和 彩票 机 是 随机 从 有 限 的 集合 中 挑选 物品 的 机 器 ， 选 出 的 物品 
没有 重复 ， 直 到 选 完 为 止 。 

我 们 把 这 个 抽象 基 类 命名 为 Tombo1a， 这 是 宾 果 机 和 打 乱 数字 的 滚动 容器 的 意大利 名 。? 
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?牛津 英语 词典 对 tombola 的 定义 是 “ 像 对 号 游戏 Cotto) 那样 的 彩票 lottery) ” 











Tombola 抽象 基 类 有 四 个 方法 ， 其 中 两 个 是 抽象 方法 。 
。 .load(...): 把 元 素 放 入 容器 。 
。 .pick(): 从 容器 中 随机 拿 出 一 个 元 素 ， 返 回 选中 的 元 素 。 
另外 两 个 是 具体 方法 。 
e .loaded(): 如 果 容 器 中 至 少 有 一 个 元 素 ， 返 回 True. 


e .inspect(): 返回 一 个 有 序 元 组 ， 由 容器 中 的 现 有 元 素 构 成 ， 不 会 修改 容器 的 内 容 
《内 部 的 顺序 不 保留 ) 。 


图 11-4 展示 了 Tombola 抽象 基 类 和 三 个 具体 实现 。 
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图 11-4: 一 个 抽象 基 类 和 三 个 子 类 的 UML 类 图 。 根 据 UML 的 约定 ，Tombola 抽象 基 
类 和 它 的 抽象 方法 使 用 和 斜体。 虚线 箭头 用 于 表示 接口 实现 ， 这 里 它 表 示 TomboList 
是 Tombola 的 虚拟 子 类 ， 因 为 TomboList 是 注册 的 ， 本 音 后 面 会 说 明 这 一 点 10 





















































10(registered»》 和 cvirtual subclass» 不 是 标准 的 UML 词汇 。 我 们 使 用 二 者 表示 Python 类 之 间 的 关系 。 














Tombola 抽象 基 类 的 定义 如 示例 11-9 所 示 。 


示例 11-9 tombola.py: Tombola 是 抽象 基 类 ， 有 两 个 抽象 方法 和 两 个 具体 方法 














tT 











import abc 


class Tombola(abc.ABC): © 


@abc.abstractmethod 
def load(self, iterable): @ 
""" 从 可 先 代 对 象 中 添加 元 素 。""" 


@abc.abstractmethod 
def pick(self): © 
""" 随 机 删除 元 素 ， 然 后 将 其 返 





I 
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如 果实 例 为 室 ， 这 个 方法 应 该 抛 出 ` LookupError ` 。 


def loaded(self): @ 
"RDA ACR, BE True, AV 
return bool(self.inspect()) © 











Si 











Hl*False. """ 














def inspect(self): 





'"" 返 回 一 个 有 序 元 组 ， 由 当前 元 素 构成 。 
items = [] 
while True: © 
try: 
items.append(self.pick()) 
except LookupError: 
break 
self.load(items) @ 
return tuple(sorted(items) ) 





























@ 自己 定义 的 抽象 基 类 要 继承 abc. ABC. 
O 抽象 方法 使 用 @abstractmethod 装饰 器 标记 ， 而 且 定义 体 中 通常 只 有 文档 字符 串 。 并 





























了 1 在 抽象 基 类 出 现 之 前 ， 抽 象 方法 使 用 raise NotImplementedError 语句 表明 由 子 类 负责 实现 。 























全 根据 文档 字符 串 ， 如 果 没 有 元 素 可 选 ， 应 该 抛 出 LookupError。 
O 抽象 基 类 可 以 包含 具体 方法 。 


O 抽象 基 类 中 的 具体 方法 只 能 依赖 抽象 基 类 定义 的 接口 ( 即 只 能 使 用 抽象 基 类 中 的 其 他 
具体 方法 、 抽 象 方法 或 特性 ) 。 


@ 我 们 不 知道 具体 子 类 如 何 存储 元 素 ， 不 过 为 了 得 到 inspect 的 结果 ， 我 们 可 以 不 断 调 
用 .pick() 方法 ， 把 Tombola 清空 ..….. 


@ .……. 然 后 再 使 用 .load(...) 把 所 有 元 素 放 回去 。 



































~ 其 实 ， 抽 象 方法 可 以 有 实现 代码 。 即 便 实 现 了 ， 子 类 也 必须 履 盖 抽象 方法 ， 但 
是 在 子 类 中 可 以 使 用 super() 函数 调用 抽象 方法 ， 为 它 添加 功能 ， 而 不 是 从 头 开始 
实现 。@abstractmethod 装饰 器 的 用 法 参见 abc 模块 的 文档 
Chttps://docs.python.org/3/library/abe.html) 。 


示例 11-9 中 的 .inspect() 方法 实现 的 方式 有 些 笨拙 ， 不 过 却 表 明 ， 有 了 .pick() 和 
-load(...) 方法 ， 若 想 查 看 Tombola 中 的 内 容 ， 可 以 先 把 所 有 元 素 挑 出 ， 然 后 再 放 回 去 。 

这 个 示例 的 目的 是 强调 抽象 基 类 可 以 提供 具体 方法 ， 只 要 依赖 接口 中 的 其 他 方法 就 

行 。Tombola 的 有 具体 子 类 知晓 内 部 数据 结构 ， 可 以 履 盖 .inspect() 方法 ， 使 用 更 聪明 
的 方式 实现 ， 但 这 不 是 强制 要 求 。 


示例 11-9 中 的 .loaded() 方法 没有 那么 笨拙 ， 但 是 耗 时 : 调用 .inspect() 方法 构建 有 
序 元 组 的 目的 仅仅 是 在 其 上 调用 bool () 函数 。 这 样 做 是 可 以 的 ， 但 是 具体 子 类 可 以 做 得 
更 好 ， 后 文 见 分 晓 。 


注意 ， 实 现 .inspect() 方法 采用 的 迁 回 方式 要 求 捕获 self.pick() 抛 出 的 

LookupError. self.pick() 抛 出 LookupError 这 一 事实 也 是 接口 的 一 部 分 ， 但 是 在 

中 没 办 法 声明 ， 只 能 在 文档 中 说 明 (参见 示例 11-9 中 抽象 方法 pick 的 文档 字符 
) sg 




























































































我 选择 使 用 LookupError 异常 的 原因 是 ， 在 Python 的 异常 层次 关系 中 ， 它 与 
IndexError 和 KeyError 有 关 ， 这 两 个 是 具体 实现 Tombola 所 用 的 数据 结构 最 有 可 能 抛 
出 的 异 异常 。 据 此 ， 实 现代 码 可 能 会 抛 出 LookupError、IndexError 或 KeyError 异常 。 
异常 的 部 分 层 11-10 所 示 《〈 完 整 的 层次 结构 参见 Python 标准 库 文档 中 的 “5.4. 
eee 12) 
































12 I, https://docs. python. org/dev/library/exceptions.html#exception-hierarchy» —— 4# VE 








示例 11-10 异常 类 的 部 分 层次 结构 





BaseException 
— SystemExit 
= KeyboardInterrupt 
GeneratorExit 
-一 Exception 
m StopIteration 
ArithmeticError 
| FloatingPointError 
OverflowError 
Iss ZeroDivisionError 
AssertionError 
— AttributeError 
= BufferError 
EOFError 
= ImportError 
LookupError © 
| IndexError @ 
KeyError © 
CC; MemoryError 
. etc. 





























O 我 们 在 Tombola.inspect 方法 中 处 理 的 是 LookupError 异常 。 


© IndexError 是 LookupError 的 子 类 ， 尝 试 从 序列 中 获取 索引 超过 最 后 位 置 的 元 素 时 
抛 出 。 


O 使 用 不 存在 的 键 从 映射 中 获取 元 素 时 ， 抛 出 KeyError 异常 。 


我 们 自己 定义 的 Tombola 抽象 基 类 完成 了 。 为 了 一 睹 抽象 基 类 对 接口 所 做 的 检查 ， 下 面 
我 们 演 试 使 用 一 个 有 缺陷 的 实现 来 糊弄 Tombo1a， 如 示例 11-11 所 示 。 


示例 11-11 不 符合 Tombola 要 求 的 子 类 无 法 蒙混 过 关 


















































>>> from tombola import Tombola 
>>> class Fake(Tombola): # © 
def pick(self): 
return 13 
>>> Fake #@ 
<class '_ main__.Fake'> 


>>> f = Fake() #6 
Traceback (most recent call last): 





File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class Fake with abstract methods load 





Q 把 Fake 声明 为 Tombola 的 子 类 。 
四 创建 了 Fake 类 ， 目 前 没有 错误 。 


© 涯 试 实例 化 Fake 时 抛 出 了 TypeError。 错 误 消 息 十 分 明确 : Python WN Fake 是 抽象 
类 ， 因 为 它 没有 实现 load 方法 ， 这 是 Tombola 抽象 基 类 声明 的 抽象 方法 之 一 。 


我 们 的 第 一 个 抽象 基 类 定义 好 了 ， 而 且 还 用 它 实 际 验证 了 一 个 类 。 稍 后 我 们 将 定 》 
Tombola 抽象 基 类 的 子 类 ， 在 此 之 前 必须 说 明 抽 象 基 类 的 一 些 编程 规则 。 
11.7.1 抽象 基 类 句法 详解 

声明 抽象 基 类 最 简单 的 方式 是 继承 abc .ABC 或 其 他 抽象 基 类 。 

然而 ，abc .ABC 是 Python 3.4 新 增 的 类 ， 因 此 如 果 你 使 用 的 是 旧版 Python， 那 么 无 法 继承 


现 有 的 抽象 基 类 。 此 时 ， 必 须 在 Class 语句 中 使 用 metaclass= 关键 字 ， 把 值 设 为 
abc.ABCMeta (不 是 abc.ABC) 。 在 示例 11-9 中 ， 可 以 写成 : 




























































































class Tombola(metaclass=abc.ABCMeta) : 
Henes 











metaclass= 关键 字 参 数 是 Python 3 引入 的 。 在 Python 2 中 必须 使 用 _metaclass_ ”类 
属性 : 








class Tombola(object): # 这 是 Python 2! ! ! 
_ metaclass _ = abc.ABCMeta 
His 


























元 类 将 在 第 21 章 讲 解 。 现 在 ， 我们 暂且 把 元 类 理解 为 一 种 特殊 的 类 ， 同 样 也 把 抽象 基 类 
理解 为 一 种 特殊 的 类 。 例 如 , “常规 的 ”类 不 会 检查 子 类 ， 因 此 这 是 抽象 基 类 的 特殊 行为 。 


除了 @abstractmethod 之 外 ，abc 模块 还 定义 了 

@abstractclassmethod, @abstractstaticmethod fll @abstractproperty 三 个 装饰 
器 。 然 而 ， 后 三 个 装饰 器 从 Python 3.3 起 废弃 了 ， 因 为 装饰 器 可 以 在 @abstractmethod 
上 堆 铸 ， 那 三 个 就 显得 多 余 了 。 例 如 ， 声 明 抽 象 类 方法 的 推荐 方式 是 : 

































































class MyABC(abc.ABC): 
@classmethod 
@abc.abstractmethod 
def an_abstract_classmethod(cls, ...): 
pass 








ERA HE Se fi as HY JP AS (FE, @abstractmethod 的 文档 就 特别 指出 : 


与 其 他 方法 描述 符 一 起 使 用 时 ，abstractmethod() 应 该 放 在 最 里 层 ，..……… 13 


也 就 是 说 ， 在 @abstractmethod 和 def 语句 之 间 不 能 有 其 他 装饰 器 。 












































1 出 自 abc 模块 文档 中 的 @abc .abstractmethod 词 条 
Chttps//docs.python.org/dev/library/abc.html#abc.abstractmethod) 。 











说 明 抽 象 基 类 的 句法 之 后 ， 我 们 要 通过 实现 几 个 功能 完善 的 具体 子 代 来 使 用 Tombola. 


11.7.2 ”定义 Tombo1la 抽 象 基 类 的 子 类 


定义 好 Tombola 抽象 基 类 之 后 ， 我 们 要 开发 两 个 具体 子 类 ， 满 足 Tombola 规定 的 接口 。 
这 两 个 子 类 的 类 图 如 图 11-4 所 示 ， 图 中 还 有 将 在 下 一 节 讨论 的 虚拟 子 类 。 


示例 11-12 中 的 BingoCage 类 是 在 示例 5-8 的 基础 上 修改 的 ， 使 用 了 更 好 的 随机 发 生 
器 。 BingoCage 实现 了 所 需 的 抽象 方法 load 和 pick， 从 Tombola 中 继承 了 loaded 77 
法 ， 履 盖 了 inspect 方法 ， 还 增加 了 call 方法 。 









































示例 11-12 bingo.py: BingoCage 是 Tombola 的 具体 子 类 


import random 


from tombola import Tombola 


class BingoCage(Tombola): @ 


def _ init__(self, items): 
self. _randomizer = random.SystemRandom() @ 
self._items = [] 
self.load(items) © 


def load(self, items): 
self._items.extend(items) 


self. _randomizer.shuffle(self. items) @ 


de 


十 


pick(self): © 
try : 
return self. _items.pop() 
except IndexError: 
raise LookupError('pick from empty BingoCage' ) 


def _call (self): © 
self.pick() 














@ 明确 指定 BingoCage 类 扩展 Tombola 类 。 











O 假设 我 们 将 在 线 上 游戏 中 使 用 这 个 。random.SystemRandom 使 用 os .urandom(...) 
函数 实现 random API。 根 据 os 模块 的 文档 

Chttp://docs.python.org/3/library/os.html#os.urandom) , os.urandom(...) 函数 生成 “适合 
用 于 加 密 ” 的 随机 字 节 序列 。 


© 委托 .load(...) 方法 实现 初始 加 载 。 
O 没有 使 用 random.shuffle() 函数 ， 而 是 使 用 SystemRandom 实例 的 .shuffle() 方 


We 6 

















O pick 方法 的 实现 方式 与 示例 5-8 一 样 。 


@ call HER ANI 5-8 中 的 一 样 。 它 没 必 要 满足 Tombola 接口 ， 添 加 额外 的 方法 没 
有 问题 。 


BingoCage 从 Tombola 中 继承 了 耗 时 的 loaded 方法 和 笨拙 的 inspect 方法 。 这 两 个 方 
法 都 可 以 履 盖 ， 变 成 示例 11-13 中 速度 更 快 的 一 行 代码 。 这 里 想 表达 的 观点 是 : 我 们 可 以 
偷懒 ， 直 接 从 抽象 基 类 中 继承 不 是 那么 理想 的 具体 方法 。 从 Tombola 中 继承 的 方法 没有 
BingoCage 自己 定义 的 那么 快 ， 不 过 只 要 Tombola 的 子 类 正确 实现 pick 和 load 方法 ， 
就 能 提供 正确 的 结果 。 


示例 11-13 是 Tombola 接口 的 另 一 种 实现 ， 虽 然 与 之 前 不 同 ， 但 完全 有 
效 。LotteryBlower 打 乱 “数字 球 ” 后 没有 取出 最 后 一 个 ， 而 是 取出 一 个 随机 位 置 上 的 
球 。 


示例 11-13 lotto.py: LotteryBlower 是 Tombola 的 具体 子 类 ， 履 盖 了 继承 的 
inspect 和 loaded 方法 








































































































import random 


from tombola import Tombola 


class LotteryBlower(Tombola): 


def _ init__(self, iterable): 
self. balls = list(iterable) © 


def load(self, iterable): 
self._balls.extend(iterable) 


def pick(self): 
try: 
position = random.randrange(len(self._balls)) @ 
except ValueError: 
raise LookupError('pick from empty LotteryBlower' ) 
return self._balls.pop(position) © 


def loaded(self): @ 
return bool(self. balls) 


def inspect(self): © 





return tuple(sorted(self. balls) ) 








O 初始 化 方法 接受 任何 可 和 迭代 对 象 :把 参数 构建 成 列表 。 


O 如果 范围 为 空 ，random.randrange(...) 函数 抛 出 ValueError， 为 了 兼 
Tombo1a， 我 们 捕获 它 ， 抛 出 LookupError。 


否则 ， 从 self. balls 中 取出 随机 选中 的 元 素 。 


O iki loaded 方法 ， 避 免 调 用 inspect 方法 (示例 11-9 中 的 Tombola.loaded 方法 是 
这 么 做 的 ) 。 我 们 可 以 直接 处 理 self. balls 而 不 必 构建 整个 有 序 元 组 ， 从 而 提升 速 


度 。 
O 使 用 一 行 代码 覆盖 inspect Wik. 


示例 11-13 中 有 个 习惯 做 法 值得 指出 : 在 init_ 方法 中 ，self._balls 保存 的 是 
list(iterable)， 而 不 是 iterable 的 引用 〈 即 没有 直接 把 iterable 赋值 给 

self. balls) 。 前 面 说 过 ，14 这 样 做 使 得 LotteryBlower 更 灵活 ， 因 为 iterable 参 
数 可 以 是 任何 可 迭代 的 类 型 。 把 元 素 存 入 列表 中 还 确保 能 取出 元 素 。 就 算 iterable 参数 
始终 传 入 列表 ，1list(iterable) 会 创建 参数 的 副本 ， 这 依然 是 好 的 做 法 ， 因 为 我 们 要 从 
中 删除 元 素 ， 而 客户 可 能 不 希望 自己 提供 的 列表 被 修改 。!3 


4 我 在 Martelli 写 的 “水 禽 和 抽象 基 类 ”短文 之 后 以 此 为 例 说 明 鸭 子 类 型 。 
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15 4.2 节 专门 讨论 了 这 种 防止 混淆 别名 的 问题 。 








接 下 来 要 讲 白 和 殷 类 型 的 重要 动态 特性 了 : 使 用 register 方法 声明 虚拟 子 类 。 


11.7.3 Tombola 的 虚拟 子 类 


白 牧 类 型 的 一 个 基本 特性 (也 是 值得 用 水 禽 来 命名 的 原因 〉: 即便 不 继承 ， 也 有 办 法 把 一 
个 类 注册 为 抽象 基 类 的 虚拟 子 类 。 这 样 做 时 ， 我 们 保证 注册 的 类 上 忠实 地 实现 了 抽象 基 类 
定义 的 接口 ， 而 Python 会 相信 我 们 ， 从 而 不 做 检查 。 如 果 我 们 说 谨 了 ， 那 么 常规 的 运行 
时 异常 会 把 我 们 捕获 。 


注册 虚拟 子 类 的 方式 是 在 抽象 基 类 上 调用 register 方法 。 这 么 做 之 后 ， 注 册 的 类 会 变 成 
抽象 基 类 的 虚拟 子 类 ， 而 且 issubclass 和 isinstance 等 函数 都 能 识别 ， 但 是 注册 的 类 
不 会 从 抽象 基 类 中 继承 任何 方法 或 属性 。 









































Bes 虚拟 子 类 不 会 继承 注册 的 抽象 基 类 ， 而 且 任何 时 候 都 不 会 检查 它 是 否 符合 抽 
象 基 类 的 接口 ， 即 便 在 实例 化 时 也 不 会 检查 。 为 了 避免 运行 时 错误 ， 庶 拟 子 类 要 实现 
所 需 的 全 部 方法 。 


register 方法 通常 作为 普通 的 函数 调用 (参见 11.9 节 ) ， 不 过 也 可 以 作为 装饰 器 使 用 。 




















在 示例 11-14 中 ， 我 们 使 用 装饰 器 句法 实现 了 TomboList 类 ， 这 是 Tombola 的 一 个 虚拟 
子 类 ， 如 图 11-5 所 示 。 
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«registered» 
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, «registered» 


TomboList 
pick 


load 
loaded 
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图 11-5: TomboList 的 UML 类 图 ， 它 是 list 的 真实 子 类 和 Tombola 的 虚拟 子 类 


TomboList 能 像 它 宣称 的 那样 使 用 ，doctest 能 证 明 这 一 上 点， 详情 参见 11.8 To 




















示例 11-14 tombolist.py: TomboList 是 Tombola 的 虚拟 子 类 





from random import randrange 


from tombola import Tombola 


@Tombola.register # © 
class TomboList(list): # @ 


def pick(self): 
if self: #60 
position = randrange(len(self) ) 
return self.pop(position) # @ 
else: 





raise LookupError('pop from empty TomboList' ) 
load = list.extend # © 


def loaded(self): 
return bool(self) # O 


def inspect(self): 
return tuple(sorted(self) ) 


# Tombola.register(TomboList) # @ 





@ JE Tombolist 注册 为 Tombola 的 虚拟 子 类 。 
© Tombolist 扩展 list. 





© Tombolist 从 list 中 继承 ”bool 方法， 列表 不 为 空 时 返回 True. 
@ pick 调用 继承 自 list 的 self.pop 方法 ， 传 入 一 个 随机 的 元 素 索引 。 


@ Tombolist.load 与 1ist.extend 一 样 。 





TTT 








@ loaded 方法 委托 bool MA. 1° 
































loaded 方法 不 能 采用 load 方法 的 那 种 方式 ， 因 为 list 类 型 没有 实现 loaded 方法 所 需 的 __bool _ 方 法。 而 内 置 
的 bool 函数 不 需要 bool 方法， 因为 它 还 可 以 使 用 len_” 方 法。 参见 Python 文档 中 “Buit-in Types” 一 章 中 
的 4.1. Truth Value Testing” (https//docs.python.org/3/library/stdtypes.html#truth) 。 


























O 如 果 是 Python 3.3 或 之 前 的 版 本 ， 不 能 把 .register 当 作 类 装饰 器 使 用 ， 必 须 使 用 标 
准 的 调用 句法 。 


注册 之 后 ， 可 以 使 用 issubclass 和 isinstance 函数 判断 TomboList 是 不 是 Tombola 
的 子 类 : 








>>> from tombola import Tombola 

>>> from tombolist import TomboList 
>>> issubclass(TomboList, Tombola) 
True 

>>> t = TomboList(range(10@) ) 

>>> isinstance(t, Tombola) 














True 
然而 ， 类 的 继承 关系 在 一 个 特殊 的 类 属性 中 指定 __mro ”， 即 方法 解析 顺序 

















(Method Resolution Order) 。 这 个 属性 的 作用 很 简单 ， 按 顺序 列 出 类 及 其 超 类 ，Python 会 
按照 这 个 顺序 搜索 方法 。17 查看 TomboList 类 的 ”mro 属性， 你 会 发 现 它 只 列 出 
了 “真实 的 ” 超 类 ， 即 list 和 object: 














i 








1712.2 节 会 专门 讲解 “mro_ “类 属性 ， 现 在 知道 这 个 简单 的 解释 就 行 了 。 

















[>>> TomboList. mro _ 





| (<class "tombolist.TomboList'>, <class 'list'>, <class 'object'>) 





Tombolist. mro _ 中 没有 Tombola， 因 此 Tombolist 没有 从 Tombola 中 继承 任何 方 


YK o 














我 编写 了 几 个 类 ， 实 现 了 相同 的 接口 ， 现 在 我 需要 一 种 编写 doctest 的 方式 来 涵盖 不 同 的 
实现 。 下 一 节 说 明 如 何 利 用 常规 类 和 抽象 基 类 的 API 编写 doctest。 














11.8 Tombola 子 类 的 测试 方法 
我 编写 的 Tombola 示例 测试 脚本 用 到 两 个 类 属性 ， 用 它们 内 省 类 的 继承 关系 。 





__subclasses () 


这 个 方法 返回 类 的 直接 子 类 列表 ， 不 含 虚拟 子 类 。 














_abc_registry 
只 有 抽象 基 类 有 这 个 数据 属性 ， 其 值 是 一 个 WeakSet 对 象 ， 即 抽象 类 注册 的 虚拟 子 
类 的 弱 引 用 。 


为 了 测试 Tombola 的 所 有 子 类 ， 我 编写 的 脚本 迭代 Tombola. subclasses () 和 
Tombola._abc_registry 得 到 的 列表 ， 然 后 把 各 个 类 赋值 给 在 doctest 中 使 用 的 
ConcreteTombola. 


这 个 测试 脚本 成 功 运行 时 输出 的 结果 如 下 : 





























$ python3 tombola_runner.py 
BingoCage 24 tests, 6 failed 
LotteryBlower 24 tests, 6 failed 


TumblingDrum 24 tests, 6 failed 
TomboList 24 tests, 6 failed 





测试 脚本 的 代码 在 示例 11-15 中 ，doctest 在 示例 11-16 中 。 


示例 11-15 tombola runnerpy: Tombola 子 类 的 测试 运行 程序 





import doctest 


from tombola import Tombola 





# 要 测试 的 模块 
import bingo, lotto, tombolist, drum @ 


TEST_FILE = 'tombola_tests.rst' 
TEST_MSG = '{@:16} {1.attempted:2} tests, {1.failed:2} failed - {2}' 


def main(argv): 
verbose = '-v' in argv 
real subclasses = Tombola._subclasses () @ 
virtual_subclasses = list(Tombola._abc_registry) © 


for cls in real_subclasses + virtual_subclasses: @ 
test(cls, verbose) 





def test(cls, verbose=False): 


res = doctest.testfile( 
TEST_FILE, 
globs={'ConcreteTombola': cls}, © 
verbose=verbose, 
optionflags=doctest.REPORT_ONLY_FIRST_FAILURE) 
tag = 'FAIL' if res.failed else 'OK' 
print(TEST MSG.format(cls. name , res, tag)) © 


if _name == ' main_': 
import sys 
main(sys.argv) 

















O 导入 包含 Tombola 真实 子 类 和 虚拟 子 类 的 模块 ， 用 于 测试 。 


© subclasses __() 返回 的 列表 是 内 存 中 存在 的 直接 子 代 。 即 便 源码 中 用 不 到 想 测 试 
的 模块 ， 也 要 将 其 导入 ， 因 为 要 把 那些 类 载 入 内 存 。 


@ if __abc_registry (WeakSet 对 象 ) 转换 成 列表 ， 这 术 
的 结果 拼接 起 来 。 


@@ 迭代 找到 的 各 个 子 类 ， 分 别传 给 test 函数 。 


全 cls 参数 (要 测试 的 类 ) 绑 定 到 全 局 命名 空间 里 的 ConcreteTombola 名 称 上 ， 供 
doctest 使 用 。 


O 输出 测试 结果 ， 包 含 类 的 名 称 、 尝 试 运行 的 测试 数量 、 失 败 的 测试 数量 ， 以 及 'OK' 或 
'FAIL' 标记 。 

















TTT 





Hae _subclasses_() 



































doctest 文件 如 示例 11-16 所 示 。 


示例 11-16 tombola tests.rst: Tombola 子 类 的 doctest 





Every concrete subclass of Tombola should pass these tests. 


Create and load instance from iterable:: 


>>> balls = list(range(3)) 

>>> globe = ConcreteTombola(balls) 
>>> globe.loaded() 

True 

>>> globe.inspect() 

(@, 1, 2) 


Pick and collect balls:: 





>>> picks = [] 


>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 
>>> picks.append(globe.pick()) 


Check state and results:: 


>>> globe. loaded() 

False 

>>> sorted(picks) == balls 
True 


Reload: : 


>>> globe.load(balls) 

>>> globe.loaded() 

True 

>>> picks = [globe.pick() for i in balls] 
>>> globe.loaded() 

False 


Check that “LookupError (or a subclass) is the exception 
thrown when the device is empty:: 


>>> globe = ConcreteTombola([]) 
>>> try: 

. globe.pick() 

.. except LookupError as exc: 
... print('OK") 

OK 


Load and pick 10@ balls to verify that they all come out:: 


>>> balls = list(range(10@) ) 

>>> globe = ConcreteTombola(balls) 
>>> picks = [] 

>>> while globe.inspect(): 

... picks.append(globe.pick()) 

>>> len(picks) == len(balls) 

True 

>>> set(picks) == set(balls) 

True 


Check that the order has changed and is not simply reversed:: 


>>> picks != balls 

True 

>>> picks[::-1] != balls 
True 


Note: the previous 2 tests have a *very* small chance of failing 
even if the implementation is OK. The probability of the 100 
balls coming out, by chance, in the order they were inspect is 
1/100!, or approximately 1.07e-158. It's much easier to win the 
Lotto or to become a billionaire working as a programmer. 





THE END 














我 们 对 Tombola 抽象 基 类 的 分 析 到 此 结束 。 下 一 节 说 明 Python wie A sth Be 2 








register AŽ. 


11.9 


Python 使 用 register 的 方式 


示例 11-14 把 Tombola.register 当 作 类 装饰 器 使 用 。 在 Python 3.3 之 前 的 版 本 中 不 能 





释 所 述 





样 使 用 ER 必须 在 定义 类 之 后 像 普通 函数 那样 调用 ， 如 示例 11-14 中 最 后 那 行 注 











虽然 现在 可 以 把 register 当 作 装饰 器 使 用 了 ， 但 更 常见 的 做 法 还 是 把 它 当 作 函 数 使 用 ， 
用 于 注册 其 他 地 方 定义 的 类 。 例 如 ， 在 collections.abc 模块 的 源码 中 

(https://hg.python.org/cpython/file/3.4/Lib/_collections abe.py) ， 是 这 样 把 内 置 类 型 
tuple. str. range 和 memoryview 注册 为 Sequence 的 虚拟 子 类 的 : 











Sequence. 
Sequence. 
Sequence. 
Sequence. 


register(tuple) 
register(str) 
register(range) 
register(memoryview) 








其 他 几 个 内 置 类 型 在 _collections abc.py 文件 

Chttps: //hg.python.org/cpython/file/3.4/Lib/_collections abc.py〉 中 注册 为 抽象 基 类 的 虚拟 子 
类 。 这 些 类 型 在 导入 模块 时 注册 ， 这 样 做 是 可 以 的 ， 因 为 必须 导入 才能 使 用 抽象 基 类 : 能 
访问 MutableMapping 才能 编写 isinstance(my_dict, MutableMapping) . 





结束 本 章 之 前 ， 还 要 解释 一 下 Alex Martelli 在 “水 禽 和 抽象 基 类 ”中 施展 的 磨 法 。 




















11.10 #HTAA A BERS 


Alex 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文中 指出 ， 即 便 不 注册 ， 抽 象 基 类 也 能 把 一 个 类 识别 
为 虚拟 子 类 。 下 面 是 他 举 的 例子 ， 我 添加 了 一 些 代码 ， 使 用 issubclass 做 测试 : 














>>> class Struggle: 
def _len_ (self): return 23 


>>> from collections import abc 

>>> isinstance(Struggle(), abc.Sized) 
True 

>>> issubclass(Struggle, abc.Sized) 
True 











经 issubclass 函数 确认 Cisinstance 函数 也 会 得 出 相同 的 结论 ) ，Struggle 是 
abc.Sized 的 子 类 ， 这 是 因为 abc.Sized 实现 了 一 个 特殊 的 类 方法 ， 名 为 
_ subclasshook ”。 参 见 示例 11-17. 











示例 11-17 Sized 类 的 源码 ， 摘 自 Lib/_collections_abc.py (Python 
3.4, https://hg.python.org/cpython/file/3.4/Lib/_collections_abc.py#1127) 





class Sized(metaclass=ABCMeta): 
_slots = () 


@abstractmethod 
def _len_ (self): 
return @ 


@classmethod 
def __subclasshook_ (cls, C): 
if cls is Sized: 
if any(" len " in B. dict for B in C._mro_): #0 
return True #@ 
return NotImplemented # © 








性 中 有 名 为 








Pam) 


OX c. mro__ (BIC RREK) 中 所 列 的 类 来 说 ， 如 果 类 的 _dict__ 忆 





@..... 返回 True， 表 明 C 是 Sized 的 虚拟 子 类 。 
否则 ， 返 回 NotImplemented， 让 子 类 检查 。 


如 果 你 对 子 类 检查 的 细节 感 兴 趣 ， 可 以 阅读 Lib/abe.py 文件 中 

ABCMeta. subclasscheck ”方法 的 源码 
(https://hg.python.org/cpython/file/3.4/Lib/abc.py#1194) 。 提 醒 : 源码 中 有 很 多 if 语句 和 

两 个 递归 调用 。 








__subclasshook__ 7EARS2SAY YS in S HERS RATT AY DA A A Sth EES 
定义 正式 接口 ， 可 以 始终 使 用 isinstance 检查 ， 也 可 以 完全 使 用 不 相关 的 类 ， 只 要 实现 
特定 的 方法 即 可 (或 者 做 些 事 情 让 subclasshook _ 信服 ) 。 当 然 ， 只 有 提供 
__subclasshook ”方法 的 抽象 基 类 才能 这 么 做 。 


在 自己 定义 的 抽象 基 类 中 要 不 要 实现 subclasshook ”方法 呢 ? 可 能 不 需要 。 我 在 
Python 源码 中 只 见 到 a mii ors raver __subclasshook__ 方法 ， 而 Sized 
只 声明 了 一 个 特殊 方法 ， 因 此 只 用 检查 这 么 一 个 特殊 方法 。 鉴 于 len _ 方法 的 “特殊 
tE”, FRA] EA TAEC EMIA. 但 是 对 其 他 特殊 方法 和 基本 的 抽象 基 类 来 
说 ， 很 难 这 么 肯定 。 例 如 ， 虽 然 映 射 实现 了 __ len _ 、_ getitem _ 和 _ iter ,但 
是 不 应 该 把 它们 视 作 Sequence 的 子 类 型 ， 因 为 不 能 使 用 整数 偏 移 值 获取 元 素 ， 也 不 能 保 
证 元 素 的 顺序 。 当 然 ，OrderedDict 除外 ， 它 保留 了 插入 元 素 的 顺序 ， 但 是 不 支持 通过 
偏 移 获取 元 素 。 


在 你 我 自己 编写 的 抽象 基 类 中 实现 subclasshook _ 方 法， 可靠 性 很 低 。 我 可 不 相信 
随便 一 个 实现 或 继承 了 load. pick, inspect 和 loaded 的 类 〈 如 Spam) 的 行为 一 定 像 
Tombola。 程 序 员 最 好 让 Spam 继承 Tombola， 至 少 也 要 注册 
(Tombola.register(Spam)) ， 从 而 确保 这 一 点 。 当 然 ， 自 己 实 现 的 
subclasshook ”方法 还 可 以 检查 方法 签名 和 其 他 特 生 ， 但 我 觉得 不 值得 这 么 做 。 




















































































































































































































11.11 本 章 小 结 


本 章 首 先 介 绍 了 非 正式 接口 〈 称 为 协议 ) 的 高 度 动态 本 性 ， 然 后 讲解 了 抽象 基 类 的 静态 接 
口 声 明 ， 最 后 指出 了 抽象 基 类 的 动态 特性 : 虚拟 子 类 ， 以 及 使 用 __subclasshook _ 方 


法 动态 识别 子 类 。 


我 们 首先 回顾 了 Python 社区 对 接口 的 惯常 理解 。 在 Python 的 历史 中 营 第 出 现 接口 的 号 
影 ， 但 它 是 非 正 式 的 ， 类 似 于 Smalltalk 的 协议 ， 而 且 在 官方 文档 中 , “foo 协议 ”foo 接 
口 ? 和 "foo 类 对 象 "这 三 种 措辞 是 同一 个 意思 。 协 议 风 格 的 接口 与 继承 完全 没有 关系 ， 实 现 
同一 个 协议 的 各 个 类 是 相互 独立 的 。 在 鸭子 类 型 中 ， 接 口 就 是 这 样 的 。 


通过 示例 11-3， 我 们 发 现 Python 对 序列 协议 的 支持 十 分 深入 。 如 果 一 个 类 实现 了 
_ getitem_ 方法， 此 外 什么 也 没 做 ， 那 么 Python SWARE, mH in 运算 符 也 随 
之 可 以 使 用 。 随 后 ， 我 们 继续 编写 第 1 章 中 的 FrenchDeck 示例 ， 还 动态 添加 了 一 个 方 
法 ， 从 而 让 它 支 持 洗 牌 。 这 里 用 到 的 是 猴子 补丁 ， 突 出 了 协 TEAR, 我 们 再 一 次 见 
识 到 ， 部 分 实现 协议 也 是 有 用 的 : 添加 可 变 序列 协议 中 的 __setitem__ 方法 之 后 ， 立 即 
e random. shuffle 函数 。 了 解 现 有 的 协议 能 让 我 们 充分 利用 Python 
富 的 标准 库 。 


接 下 来 ，Alex Martelli TA T ARAR IARE, 18 以 此 描述 一 种 新 的 Python 编程 风 
Kt. (ED ARR”, 可 以 使 用 抽象 基 类 明确 声 声明 接口 ， 而 且 类 可 以 子 类 化 抽象 基 类 或 使 
用 抽象 基 类 注册 (无 需 在 继承 关系 中 确立 静态 的 强 链接 ， 宣 称 它 实现 了 某 个 接口 。 





































































































184 白 鹅 类 型 "这 种 说 法 是 Alex 发 明 的 ， 这 是 它 第 一 次 出 现在 书 中 。 











FrenchDeck2 示例 清楚 地 展示 了 显 式 继承 抽象 基 类 的 优 缺 点 。 继 承 
abc.MutableSequence 后 ， 必 须 实 现 insert 和 delitem _ 方法 ， 而 我 们 并 不 需要 
这 两 个 方法 。 不 过 ， 即 便 是 Python 新 手 ， 只 要 查看 FrenchDeck2 类 的 源码 ， 就 能 看 出 它 
是 可 变 序 列 。 此 外 ， 我 们 还 得 到 一 个 额外 好 处 ， 从 abc .MutableSequence 中 继承 了 11 
个 方法 (其 中 五 个 间接 继承 自 abc.Sequence) ， 而 且 拿 来 即 用 。 


全 面 介 绍 图 11-3 中 collections.abc 模块 里 的 各 个 抽象 基 类 后 ， 我 们 自己 动手 从 头 开 
始 编写 了 一 个 抽象 基 类 。PyMOTW .com (Python Module of the Week, http://pymotw.com) 网 
站 的 创建 者 Doug Helinaan 道 出 了 这 么 做 的 目的 : 


定义 抽象 基 类 之 后 ， 各 个 子 类 可 以 实现 通用 的 API。 如 果 有 人 不 熟悉 应 用 程序 的 运作 
方式 ， 却 又 想 使 用 插件 扩展 ， 就 可 以 利用 这 一 功能 .…… 了 2 






































19PyMOTW 网 站 介绍 abc 模块 的 页 面 , “Why use Abstract Base Classes?” 一 节 Chttps://pymotw.com/2/abc/index.html#why- 
| use- -abstract-base-classes) o 





定义 好 Tombola 抽象 基 类 之 后 ， 我 们 创建 了 三 个 具体 子 类 ， 两 个 继承 Tombola， 男 一 个 
注册 为 虚拟 子 类 -一 它们 都 能 通过 同一 个 测试 组 件 。 


本 章 结束 之 前 ， 我 们 提 到 了 几 个 内 置 类 型 是 如 何 注册 到 collections.abc 模块 中 的 抽象 











基 类 的 。 这 样 ， 虽 然 memoryview 没有 继承 abc.Sequence, isinstance(memoryview, 
abc. Sequence) 的 结果 也 是 True。 最 后 ， _ subclasshook _ 魔 法。 这 个 
AUR acon ecg ， 你 可 以 根据 需要 做 简单 的 或 者 复杂 的 
Wi 法 只 是 检查 方法 名 称 。 


最 后 的 最 后 ， 我 要 重申 Alex Martelli 的 警告 : 不 要 自己 定义 抽象 基 类 ， 除 非 你 要 构建 允许 
用 户 扩展 的 框架 一 一 然而 大 多 数 情 况 下 并 非 如 此 。 日 常 使 用 中 ， 我 们 与 抽象 基 类 的 联系 应 
该 是 创建 现 有 抽象 基 类 的 子 类 ， 或 者 使 用 现 有 的 抽象 基 类 注册 。 此 外 ， 我 们 可 能 还 会 在 
isinstance 检查 中 使 用 抽象 基 类 ， 但 这 比 继承 或 注册 更 少见 。 需 要 自己 从 头 编写 新 抽象 
基 类 的 情况 少 之 又 少 。 


我 使 用 Python 15 年 了 ， 除 了 教学 示例 以 外 ， 我 只 在 Pingo 项 目 (http://pingo.io〉 中 编写 过 
一 个 抽象 类 ， 即 Board 类 (https://github.com/garoa/pingo/blob/master/pingo/board.py) > X 
持 单 板 机 和 控制 器 的 驱动 是 Board 的 子 类 ， 共 用 相同 的 接口 。 就 算 我 把 pingo.Board 打 
造成 抽象 类 ， 它 也 并 没有 继承 abc ABC. 79 我 本 打算 把 Board 定义 为 抽象 基 类 ， 但 是 

Pingo 项 目 有 更 重要 的 事情 要 做 。 





































































































| 20ython 标准 库 也 有 这 样 做 的 ， 有 些 类 虽然 是 抽象 的 ， 但 是 并 没有 显 式 地 继承 abc .ABC。 

















本 章 适 合 使 用 下 面 这 段 话 结尾 : 


* 管 抽象 基 类 使 得 类 型 检查 变 得 更 容易 了， 但 不 应 该 在 程序 中 过 度 使 用 它 。Python 的 
核心 在 于 它 是 一 门 动态 语言 ， 它 带 来 了 极 大 的 灵活 性 。 如 果 处 处 都 强制 实行 类 型 约 
K, 那么 会 使 代码 变 得 更 加 复杂 ， 而 本 不 应 该 如 此 。 我 们 应 该 拥抱 Python 的 灵活 
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或 者 ， 像 本 书 技术 审 校 Leonardo Rochael 所 写 的 :“ 如 果 觉 得 自己 想 创 建新 的 抽象 基 类 ， 
先 试 着 通过 常规 的 鸭子 类 型 来 解决 问题 。” 


11.12 ”延伸 阅读 


Beazley 与 Jones 的 《Python Cookbook (45 3 版 ) 中 文 版 》 有 一 节 (8.12) 定义 了 一 个 抽象 
基 类 。 这 本 书 在 Python 3.4 之 前 撰写 ， 因 此 他 们 没有 使 用 现在 推荐 的 句法 ， 即 通 aE 
abc. ABC 声明 抽象 基 类 ， 而 是 使 用 metaclass 关键 字 。 除 了 这 个 小 细节 之 外 ， 那 个 秘笈 
很 好 地 涵盖 了 抽象 基 类 的 主要 功能 ， 而 且 最 后 还 给 出 了 宝贵 的 意见 ， 即 前 一 节 末 尾 引 用 的 
那 段 话 。 


Doug Hellmann 写 的 《Python 标准 库 》 一 书 中 有 一 章 是 关于 abc 模块 的 。Doug 创建 的 
PyMOTW (Python Module of the Week) 网 站 中 也 有 那 一 章 

Chttp://pymotw.com/2/abc/index.html) 。 这 本 书 和 PYMOTW 网 站 都 针对 Python 2， 因 此 如 
果 你 使 用 Python 3 的 话 ， 必须 做 些 调整。 22 记 住 ， 在 Python 3.4 中 ， 唯 一 推荐 使 用 的 抽象 
基 类 方法 装饰 器 是 @abstractmethod， 其 他 装饰 器 已 经 废弃 了 。 本 章 小 结 中 引用 的 关于 
抽象 基 类 的 另 一 句 话 出 自 Doug 的 网 站 和 这 本 书 。 









































2PyMOTW 网 站 现在 已 经 是 面向 Python 3 了 。 一 一 编者 注 











使 用 抽象 基 类 时 ， 经 常会 遇 到 多 重 继承 ， 而 且 是 不 可 避免 的 ， 因 为 基本 的 集合 抽象 基 类 
(Sequence, Mapping 和 Set) 都 扩展 多 个 抽象 基 类 〈 如 图 11-3 所 示 ) 。 第 12 章 接着 
讨论 这 个 话题 ， 那 是 重要 的 一 章 。 








“PEP 3119—Introducing Abstract Base Classes” Chttps://www.python.org/dev/peps/pep-3119) 

讲解 了 抽象 基 类 的 基本 原理 ，“PEP 3141 一 A Type Hierarchy for 

Numbers” (https://www.python.org/dev/peps/pep-3141/) 提出 了 numbers 模块 
(https://docs.python.org/3/library/numbers.html 〉 中 的 抽象 基 类 。 














Bill Venners 对 Guido van Rossum 的 采访 “Contracts in Python: A Conversation with Guido van 
Rossum, Part IV” (http://www.artima.com/intv/pycontract.html) 讨论 了 动态 类 型 的 优 缺 点 。 




















zope.interface 包 Chttp://docs.zope.org/zope.interface/) 提供 了 一 种 声明 接口 的 方式 : 检 
查 对 象 是 否 实现 了 接口 ， 注 册 提 供 方 ， 然 后 查询 指定 接口 的 提供 方 。 一 开始 ， 这 个 包 是 
Zope 3 核心 的 一 部 分 ， 不 过 它 可 以 在 Zope 外 部 使 用 ， 而 且 已 经 有 人 这 么 做 了 。 这 个 包 为 
大 型 Python WH CUN Twisted. Pyramid 和 Plone〉 的 组 件 式 架构 提供 了 灵活 的 基础 。 
Lennart Regebro 写 的 “A Python Component Architecture” 一文 

(https://regebro.wordpress.com/2007/11/16/a-python-component-architecture/) 对 
zope.interface 包 做 了 介绍 ，BaijuM 还 写 了 一 本 相关 的 书 一 一 4 Comprehensive Guide 
to Zope Component Architecture Chttp://muthukadan.net/docs/zca.html) 。 


















































杂谈 
类 型 提示 
2014 年 ，Python 世界 最 大 的 新 闻 应 该 是 Guido van Rossum 同意 实现 可 选 的 静态 类 型 


检查 ， 这 与 检查 程序 Mypy Chttp://www.mypy-lang.org) 的 做 法 类 似 ， 即 使 用 函数 注解 
实现 。 这 一 消息 出 自 8 月 15 日 发 表 在 Python-ideas 邮件 列表 中 的 一 个 话题 ， 题 














为 “Optional static typing —the crossroads” (https://mail.python.org/pipermail/python- 
ideas/2014-August/028742.html) 。 一 个 月 后 ，“PEP 484—Type Hints” 5! R 
(https://www.python.org/dev/peps/pep-0484/) 发 布 了 ， 发 起 人 是 Guido. 


这 个 功能 的 目的 是 让 程序 员 在 函数 定义 中 使 用 注解 声明 参数 和 返回 值 的 类 型 ， 但 这 是 
可 选 的 。 关 键 在 于 “可 选 * 二 字 。 仪 当 你 想得到 注解 的 好 处 和 限制 时 才 需 要 添加 注解 ， 
而 且 可 以 在 一 些 函 数 中 添加 ， 在 男 一 些 函 数 中 不 添加 。 


从 表面 上 看 ， 这 与 Microsof 对 TypeScript (JavaScript 的 超 集 ) 采取 的 方式 类 似 ， 不 
过 TypeScript 做 得 更 进一步 : TypeScript 添加 了 新 的 语言 结构 〈 如 模块 、 类 、 显 式 接 
口 ， 等 等 ) ， 人 允许 声明 变量 类 型 ， 而 且 最 终 编译 成 常规 的 JavaScript。 目 前 来 看 ， 
Python 的 可 选 静态 类 型 没 这 么 大 的 雄心 。 


为 了 理解 这 个 提案 的 动机 ， 不 能 忽略 Guido 在 2014 年 8 月 15 日 发 送 的 那 封 重要 邮件 
中 的 这 段 话 : 


我 还 得 做 个 假设 : 这 个 功能 主要 供 lint 程序 、IDE 和 文档 生成 工具 使 用 。 这 些 工 
有 具有 个 共同 点 : 即使 类 型 检查 失败 了 ， 程 序 仍 能 运行 。 此 外 ， 程 序 中 添加 的 类 型 
不 能 降低 性 能 “也 不 能 提升 性 能 :-)) o 


因此 ， 这 一 举动 并 不 像 乍 一 看 那么 激进 。“PEP 484 一 Type 

Hints” (https:/www.python.org/dev/peps/pep-0484/) 提 到 了 “PEP 482—Literature 
Overview for Type Hints” (https://www.python.org/dev/peps/pep-0482/) ， 后 者 概述 了 第 
三 方 Python 工具 和 其 他 语言 实现 类 型 提示 的 方式 。 


不 管 激进 不 激进 ， 类 型 提示 都 将 到 来 : 支持 PEP 484 的 typing 模块 好 像 已 经 纳入 
Python 3.5。23 根据 这 个 提案 的 表述 和 实现 方式 ， 可 以 肯定 的 是 ， 现 有 代码 不 会 因为 
缺少 类 型 提示 “或 相关 的 附加 物 ) 而 无 法 运行 。 

最 后 ，PEP 484 明确 指出 : 


还 要 强调 一 点 ，Python 依旧 是 一 门 动态 类 型 语言 ， 作 者 从 未 打算 强制 要 求 使 用 类 

型 提示 ， 甚 至 不 会 把 它 变 成 约定 。 
Python 是 弱 类 型 语言 吗 
由 于 缺少 统一 的 术语 ， 讨 论语 言 类 型 方面 的 话题 时 有 时 会 让 人 不 明 其 意 。 有 些 人 《【 例 
如 扩展 阅读 中 提 到 的 Bill Venners 对 Guido 的 访谈 ) 说 Python 是 弱 类 型 语言 ， 把 
Python 与 JavaScript 和 PHP 归 为 一 类 。 讨 论 类 型 时 ， 最 好 考虑 两 条 不 同 的 坐标 线 。 
强 类 型 和 弱 类 型 

如 果 一 门 语言 很 少 隐 式 转换 类 型 ， 说 明 它 是 强 类 型 语言 ， 如 果 经 常 这 么 做 ， 说 明 

它 是 弱 类 型 语言 。Java、C++ 和 Python 是 强 类 型 语言 。PHP、JavaScript 和 Perl 是 弱 
类 型 语言 
IL O Ao 


态 类 型 和 动态 类 型 
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在 编译 时 检查 类 型 的 语言 是 静态 类 型 语言 ， 在 运行 时 检查 类 型 的 语言 是 动态 类 型 
语言 。 静 态 类 型 需要 声明 类 型 《有些 现代 语言 使 用 类 型 推导 避免 部 分 类 型 声明 ) 。 
Fortran 和 Lisp 是 最 早 的 两 门 语言 ， 现 在 仍 在 使 用 ， 它 们 分 别 是 静态 类 型 语言 和 动态 
类 型 语言 
RE W A o 


强 类 型 能 及 早 发 现 缺陷 。 
下 面 几 例 体现 了 弱 类 型 的 不 足 : 24 

































































// 这 些 是 JavaSscript 代 码 ( 在 Node.js v8.16.33 中 做 了 测试 ) 


' == 'Q' // false 
0 == '' // true 
0 == '@' // true 
"' << @ // false 

'< '@' // true 








因为 Python 不 会 自动 在 字符 串 和 数字 之 间 强 制 转换 ， 所 以 在 Python 3 F, ER == 表 
达 式 的 结果 都 是 False ORAT == 的 意思 ) ， 而 < 比较 会 殷 出 TypeError。 


争 态 类 型 使 得 一 些 工 具 (编译 费 和 IDE) 便于 分 析 代 码 、 找 出 错误 和 提供 其 他 服务 
(Hitt. HM, SESE) 。 动 态 类 型 便于 代码 重用 ， 代 码 行 数 更 少 ， 而 且 能 让 接口 自然 
成 为 协议 而 不 提早 实行 。 


综 上 ，Python 是 动态 强 类 型 语言 。“PEP 484—Type 
Hints” Chttps://www.python.org/dev/peps/pep-0484/) 无 法 改变 这 一 点 ， 但 是 API 作者 
能 够 添加 可 选 的 类 型 注解 ， 执 行 某 种 静态 类 型 检查 。 


猴子 补丁 


猴子 补丁 的 名 声 不 太 好 。 如 果 滥用 ， 会 导致 系统 难以 理解 和 维护 。 补 丁 通常 与 目标 紧 
密 厢 合 ， 因 此 很 脆弱 。 男 一 个 问题 是 ， 打 了 猴子 补丁 的 两 个 库 可 能 相互 罕 绊 ， 因 为 第 
二 个 库 可 能 撤销 了 第 一 个 库 的 补丁 。 


不 过 猴子 补丁 也 有 它 的 作用 ， 例 如 可 以 在 运行 时 让 类 实现 协议 。 适 配器 设计 模式 通过 
实现 全 新 的 类 解决 这 种 问题 。 


A Python 打 猴 子 补丁 不 难 ， 但 是 有 些 局 限 。 与 Ruby 和 JavaScript 不 同 ，Python F fù 
许 为 内 置 类 型 打 猴 子 补 本 。 其 实 我 觉得 这 是 优点 ， 因 为 这 样 可 以 确保 str 对 象 的 方 
法 始终 是 那些 。 这 一 局 限 能 减少 外 部 库 打 的 补丁 有 冲突 的 概率 。 


Java、Go 和 Ruby 的 接口 


M CH 2.0 (1989 年 发 布 ) 起 ， 这 门 语言 开始 使 用 抽象 类 指定 接口 。Java 的 设计 者 选 
择 不 文 持 类 的 多 重 继 承 ， 这 排除 了 使 用 抽象 类 作为 接口 规范 的 可 能 性 ， 因 为 一 个 类 通 
常会 实现 多 个 接口 。 但 是 ，Java 的 设计 者 添加 了 interface 这 个 语言 结构 ， 而 且 允 
许 一 个 类 实现 多 个 接口 这 是 一 种 多 重 继 承 。 以 更 为 明确 的 方式 定义 接口 是 Java 
的 一 大 贡献 。 在 Java 8 中 ， 接 口 可 以 提供 方法 实现 ， 这 叫 默认 方法 
Chttps://docs.oracle.com/javase/tutorial/java/IandI/defaultmethods.html) 。 有 了 这 个 功 
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fig, Java 的 接口 与 CH+ 和 Python 中 的 抽象 类 更 像 了 。 


Go 语言 采用 的 方式 完全 不 同 。 首 先 ，Go 不 支持 继承 。 我 们 可 以 定义 接口 ， 但 是 无 需 
(其 实 也 不 能 ) 明确 地 指出 某 个 类 型 实现 了 某 个 接口 。 编 译 器 能 自动 判断 。 因 此 ， 考 
虑 到 接口 在 编译 时 检查 ， 但 是 真正 重要 的 是 实现 了 什么 类 型 ，Go 语言 可 以 说 是 具 
AAS FIL? 


与 Python 相 比 ， 对 Go 来 说 就 好 像 每 个 抽象 基 类 都 实现 了 _ subclasshook__ 77 

法 ， 它 会 检查 函数 的 名 称 和 签名 ， 而 我 们 自己 从 不 需要 继承 或 注册 抽象 基 类 。 如 果 想 

让 Python 更 像 Go， 可 以 对 所 有 函数 参数 做 类 型 检查 。Python 提供 了 部 分 基础 设施 
(参见 5.9 节 ) © Guido 说 过 ， 他 不 介意 使 用 注解 做 类 型 检查 ， 至 少 在 辅助 工具 中 可 
以 这 么 做 。 详 情 参阅 第 5 章 的 “杂谈 ”。 


Ruby 程序 员 是 鸭子 类 型 的 坚定 拥护 者 ， 而 且 Ruby 没有 声明 接口 或 抽象 类 的 正式 方 
式 ， 只 能 像 Python 2.6 之 前 的 版 本 那样 做 ， 即 在 方法 的 定义 体 中 抛 出 
NotImplementedError， 以 此 表明 方法 是 抽象 的 ， 用 户 必须 在 子 类 中 实现 。 


不 过 ，2014 年 9 H, Ruby 之 父 松本 行 弘 在 日 本 举办 的 Ruby Kaigi (最 重要 的 Ruby 大 
会 之 一 ， 每 年 举办 ) 中 做 了 一 场 主题 演讲 ， 他 透露 说 ， Ruby 未 来 可 能 会 文 持 静态 类 
型 。 目 前 我 还 没 看 到 相关 报道 ， 但 是 根据 Godfrey Chan 的 博客 文章 “Ruby Kaigi 2014: 
Day 2” Chttp://brewhouse.io/blog/2014/09/19/ruby-kaigi-2014-day-2) ， 松 本 行 弘 关注 的 
似乎 是 函数 注解 。 他 甚至 还 提 到 了 Python 的 函数 注解 。 


在 没有 抽象 基 类 向 类 型 系统 添加 绢 a, 以 及 不 丧失 灵活 性 的 情况 下 ， 我 不 知道 函数 注 
解 有 什么 用 。 因 此 ，Ruby 未 来 可 能 还 会 文 持 正 式 接口 。 


我 相信 ， Python 的 抽象 基 类 在 register 函数 和 __subclasshook_ ”方法 的 协助 下 
能 把 正式 接口 带 入 这 门 语言 ， 而 且 不 失去 动态 类 型 的 优势 。 


BYE, RIE TE EERE SF 

接口 中 的 隐喻 和 习惯 用 法 

隐喻 能 打破 壁垒 ， 让 人 更 易于 理解 。 使 用 “ 栈 ” 和 “队列 ”描述 基本 的 数据 类 型 就 有 这 样 
的 功效 : 这 两 个 词 清楚 地 道 出 T 另 一 方面 ，Alan Cooper 在 
《交互 设计 精髓 (第 4 版 》 中 写 道 


隐喻 设计 坚 无 必要 ， 却 把 界面 死 死 地 与 物理 世界 的 运行 机 制 捆绑 在 一 
tig 





























































































































他 说 的 是 用 户 界面 ， 但 对 API 同样 适用 。 不 过 Cooper 同意 ， 当 “真正 合适 的 ”隐喻 “ 正 
中 下 怀 ? 时 ， 可 以 使 用 隐喻 《他 用 的 词 是 “正中 下 怀 ”， 因 为 合适 的 隐喻 可 遇 不 可 
求 ) 。 我 觉得 本 章 用 宾 果 机 作 比 喻 是 合适 的 ， 我 相信 自己 。 


我 读 过 不 少 UI 设计 方面 的 书 ，《 交 互 设计 精 做 》 是 最 好 的 。 我 从 Cooper 的 书 中 学 到 
的 最 宝贵 的 知识 是 ， 不 把 隐喻 当 作 设计 范式 ， 而 代 之 以 “习惯 用 法 的 界面 "。 前 面 说 
过 ，Cooper 说 的 不 是 APL， 但 是 我 越 深入 思考 他 的 观点 ， 越 觉得 可 以 将 之 运用 到 

Python 中 。Python 语言 的 基本 协议 就 是 Cooper 所 说 的 “习惯 用 法 "。 知 道 "序列 "是 什 














么 之 后 ， 可 以 把 这 些 知识 应 用 到 不 同 的 场合 。 这 正 是 本 书 的 主要 目的 : 着 重 讲解 这 门 
语言 的 基本 惯用 法 ， 让 你 的 代码 简洁 、 高 效 且 可 读 ， 把 你 打造 成 熟练 的 Python 程序 


Wo 























BME, typing 模块 已 经 纳入 Python 3.5。 一 一 编者 注 








24 改 编 自 JavaScript: The Good Parts (Douglas Crockford #4) 附录 B 第 109 页 给 出 的 示例 。 


Bl APARNA 


(我 们 ) 推出 继承 的 初衷 是 让 新 手 顺利 使 用 只 有 专家 才能 设计 出 来 的 框架 。! 


Alan Kay 
“The Early History of Smalltalk” 





‘Alan Kay,“The Early History of Smalltalk,”in SIGPLAN Not. 28, 3 (March 1993), 69-95. 网 上 也 有 这 篇 文章 
Chttp//propella.sakura.ne.jp/earlyHistoryST/EarlyHistoryST.html) 。 感 谢 我 的 朋友 Christiano Anderson 在 我 写 这 一 章 时 告诉 








本 章 探讨 继承 和 子 类 化 ， 重 点 是 说 明 对 Python 而 言 尤为 重要 的 两 个 细节 : 
。 子 类 化 内 置 类 型 的 缺点 
。 多 重 继承 和 方法 解析 顺序 


很 多 人 觉得 多 重 继承 得 不 偿 失 。 不 支持 多 重 继承 的 Java 显然 没有 什么 损失 ，C++ 对 多 重 
继承 的 滥用 伤害 了 很 多 人 ， 这 可 能 还 坚定 了 使 用 Java 的 决心 。 


然而 ，Java 的 巨大 成 功 和 广泛 影响 ， 也 导致 很 多 刚 接触 Python 的 程序 员 没 怎么 见 过 真实 
的 代码 使 用 多 重 继 承 。 鉴 于 此 ， 我 们 将 不 再 举 简单 的 示例 ， 而 是 通过 两 个 重要 的 Python 
项 目 探讨 多 重 继承 ， 这 两 个 项 目 是 GUI 工具 包 Tkinter 和 Web 框架 Django. 


我 们 将 首先 分 析 子 类 化 内 置 类 型 的 问题 。 本 章 余 下 的 内 容 则 探讨 多 重 继 承 ， 我 们 将 分 析 案 
例 ， 并 讨论 构建 类 层次 结构 方面 好 的 做 法 和 不 好 的 做 法 。 





























12.1 TAM AAKI AR 


在 Python 2.2 之前， 内 置 类 型 (如 1ist 或 dict) 不 能 子 类 化 。 在 Python 2.2 之 后 ， 内 置 
类 型 可 以 子 类 化 了 ， 但 是 有 个 重要 的 注意 事项 : 内 置 类 型 〈 使 用 C 语言 编写 ) 不 会 调用 
用 户 定 义 的 类 和 覆盖 的 特殊 方法 。 


PyPy 的 文档 使 用 简明 扼要 的 语言 描述 了 这 个 问题 ， 见 于 “Differences between PyPy and 
CPython” 中 “Subclasses of built-in types” 一 节 
(http://pypy.readthedocs.io/en/latest/cpython differences.html#subclasses-of-built-in-types ) : 


至 于 内 置 类 型 的 子 类 履 盖 的 方法 会 不 会 隐 式 调用 ，CPython 没有 制定 官方 规则 。 基 本 
上 ， 内 置 类 型 的 方法 不 会 调用 子 类 覆盖 的 方法 。 例 如 ，dict MPR H 
__getitem_() 方法 不 会 被 内 置 类 型 的 get() 方法 调用 。 


示例 12-1 说 明了 这 个 问题 。 


示例 12-1 内 置 类 型 dict 的 ”init M update _ 方法 会 忽略 我 们 履 盖 的 
_ setitem_ ”方法 






























































>>> class DoppelDict(dict): 
def _ setitem_(self, key, value): 
super(). setitem (key, [value] * 2) # © 


>>> dd = DoppelDict(one=1) # @ 

>>> dd 

{'one': 1} 

>>> dd['two'] = 2 #0 

>>> dd 

{'one': 1, ‘two': [2, 2]} 

>>> dd.update(three=3) #@ 

>>> dd 

{'three': 3, 'one': 1, ‘two': [2, 2]} 





























@ DoppelDict. setitem ”方法 会 重复 存 入 的 值 ( 只 是 为 了 提供 易于 观察 的 效果 ) 。 
它 把 职责 委托 给 超 类 。 


© 继承 自 dict 的 _ init_ 方法 显然 急 略 了 我 们 歼 盖 的 __setitem_ 方法 : “one ' 的 
值 没 有 重复 。 


6 [ ] 运算 符 会 调用 我 们 覆盖 的 __setitem _ 方法 ， 按 预期 那样 工作 : “two' 对 应 的 是 
两 个 重复 的 值 ， 即 [2，2]。 


@ 继承 自 dict 的 update 方法 也 不 使 用 我 们 履 盖 的 setitem_ _ 方法 : 'three' 的 值 
没有 重复 。 


原生 类 型 的 这 种 行为 违背 了 面向 对 象 编程 的 一 个 基本 原则 : 始终 应 该 从 实例 (self) 所 
属 的 类 开始 搜索 方法 ， 即 使 在 超 类 实现 的 类 中 调用 也 是 如 此 。 在 这 种 糟糕 的 局 面 
H, missing ”方法 〈 参 见 3.4.2 节 ) 却 能 按 预 期 方式 工作 ， 不 过 这 只 是 特例 。 





























不 只 实例 内 部 的 调用 有 这 个 问题 (self.get() 不 调用 self. getitem ()) ， 内 置 类 

型 的 方法 调用 的 其 他 类 的 方法 ， 如 果 被 覆盖 了 ， 也 不 会 被 调用 。 示 例 12-2 是 一 个 例子 ， 

改编 自 PyPy 文档 中 的 示例 
Chttp://pypy.readthedocs.io/en/latest/cpython_differences.html#subclasses-of-built-in-types) 。 














示例 12-2 dict.update 方法 会 忽略 AnswerDict. getitem _ 方法 





>>> class AnswerDict(dict): 
def _getitem (self, key): # © 
return 42 


>>> ad = AnswerDict(a='foo') #@ 
>>> ad['a'] #6 

42 

>>> d= {} 

>>> d.update(ad) # @ 

>>> d['a'] #6 

"foo' 

>>> d 

{'a': 'foo'} 














@ 不 管 传 入 什么 键 ，AnswerDict. getitem _ 方法 始终 返回 42. 








四 ad 是 AnswerDict 的 实例 ， 以 ('a' ，'foo' ) 键 值 对 初始 化 。 
@ad['a'] 返回 42， 这 与 预期 相符 。 
Od 是 dict 的 实例 ， 使 用 ad 中 的 值 更 新 do 


@ dict.update 方法 忽略 了 AnswerDict. getitem _ 方法 。 











Inq 

ex 直接 子 类 化 内 置 类 型 (如 dict. list 或 str) 容易 出 错 ， 因 为 内 置 类 型 的 
方法 通常 会 忽略 用 户 履 盖 的 方法 。 不 要 子 类 化 内 置 类 型 ， 用 户 自 己 定 义 的 类 应 该 继承 
collections 模块 (http://docs.python.org/3/library/collections.html〉 中 的 类 ， 例 如 
UserDict、UserList 和 Userstring， 这 些 类 做 了 特殊 设计 ， 因 此 易于 扩展 。 




















如 果 不 子 类 化 dict， 而 是 子 类 化 collections.UserDict， 示 例 12-1 和 示例 12-2 中 暴 
圳 的 问题 便 迎 为 而 解 了 。 参 见 示例 12-3. 


示例 12-3 DoppelDict2 和 AnswerDict2 能 像 预 期 那样 使 用 ， 因 为 它们 扩展 的 是 
UserDict， 而 不 是 dict 











>>> import collections 
>>> 
>>> class DoppelDict2(collections.UserDict): 
def _ setitem_(self, key, value): 
super(). setitem (key, [value] * 2) 


>>> dd = DoppelDict2(one=1) 
>>> dd 





{'one': [1, 1]} 
>>> dd['two'] = 2 
>>> dd 
{'two': [2, 2], ‘one': [1, 1]} 
>>> dd.update(three=3) 
>>> dd 
{'two': [2, 2], ‘three’: [3, 3], ‘one’: [1, 1]} 
>>> 
>>> class AnswerDict2(collections.UserDict): 
def _ getitem_(self, key): 
return 42 


>>> ad = AnswerDict2(a='foo' ) 
>>> ad['a'] 

42 

>>> d= {} 

>>> d.update(ad) 

>>> d['a'] 

42 

>>> d 

{'a': 42} 


为 了 衡量 子 类 化 内 置 类 型 所 需 的 额外 工作 量 ， 我 做 了 个 实验 ， 重 写 了 示例 3-8 中 的 
StrKeyDict 类 。 原 始 版 继承 自 collections.UserDict， 而 且 只 实现 了 三 个 方 

法 : _ missing 、 contains 和 ”setitem 。 在 实验 中 ，StrKeyDict 直接 子 类 
化 dict， 而 且 也 实现 了 那 三 个 方法 ， 不 过 根据 存储 数据 的 方式 稍微 做 了 调整 。 可 是 ， 为 
了 让 实验 版 通过 原始 版 的 测试 组 件 ， 还 要 实现 _ init__. get 和 update 方法 ， 因 为 继 
承 自 dict 的 版 本 拒绝 与 覆盖 的 “missing ~ contains 和 setitem _ 方法 合 
作 。 示 例 3-8 中 那个 UserDict FAA 16 行 代码 ， 而 实验 的 dict 子 类 有 37 行 代码 。? 



























































?如果 好 奇 ， 实 验 版 在 本 书 代 码 仓库 〈https:Wgithub.comy/fluentpython/example-code) 里 的 strkeydict dictsub.py 文件 中 。 





综 上 ， 本 节 所 述 的 问题 只 发 生 在 C 语言 实现 的 内 置 类 型 内 部 的 方法 委托 上 ， 而 且 只 影响 
直接 继承 内 置 类 型 的 用 户 自 定义 类 。 如 果子 类 化 使 用 Python 编写 的 类 ， 如 UserDict 或 
MutableMapping， 就 不 会 受 此 影响 。3 














3 顺便 说 一 下 ， 在 这 方面 ，PyPy 的 行为 比 CPython 正 确 "， 不 过 会 导致 微小 的 差异 。 详 情 参见 "Differences between PyPy 
and CPython” Chttp://pypy.readthedocs.io/en/latest/cpython_differences.html#subclasses-of-built-in-types) 。 
































与 继承 ， 尤 其 是 多 重 继承 有 关 的 另 一 个 问题 是 : 如果 同 级 别 的 超 类 定义 了 同名 属性 ， 
Python 如 何 确定 使 用 哪个 ? 下 一 节 解 答 。 














12.2 多重 继承 和 方法 解析 顺序 


任何 实现 多 重 继承 的 语言 都 要 处 理 潜在 的 命名 冲突 ， 这 种 冲突 由 不 相关 的 祖先 类 实现 同名 





























方法 引起 。 这 种 冲突 称 为 “ 鞭 形 问题 ”， 如 图 12-1 和 示例 12-4 所 示 。 





12-1: CE) 说 明 “ 鞭 形 问题 ?的 UML 类 图 CE) 虚线 箭头 是 示例 12-4 使 用 的 方 
法 解析 顺序 


示例 12-4 diamond.py: 图 12-1 中 的 A、B、C 和 0D 四 个 类 











class A: 
def ping(self): 
print('ping:', self) 


class B(A): 
def pong(self): 
print('pong:', self) 


class C(A): 
def pong(self): 
print('PONG:', self) 


class D(B, C): 





def ping(self): 
super().ping() 
print('post-ping:', self) 


def pingpong(self): 
self.ping() 
super().ping() 
self.pong() 
super().pong() 
C.pong(self) 














JER, BAC 都 实现 了 pong 方法 ， 二 者 之 间 唯 一 的 区 别 是 ，C.ponsg 方法 输出 的 是 大 写 
的 PONG。 











r 的 实例 上 调用 d.pong() 方法 的 话 ， 运 行 的 是 哪个 pong 方法 呢 ? 在 C++ 中， 程序 员 
须 使 用 类 名 限定 方法 调用 来 避免 这 种 歧义 。Python 也 能 这 么 做 ， 如 示例 12-5 所 示 。 


示例 12-5 Æ D 实例 上 调用 pong 方法 的 两 种 方式 














>>> from diamond import * 

>>> d = D() 

>>> d.pong() # 0 

pong: <diamond.D object at @x10066c278> 
>>> C.pong(d) #@ 

PONG: <diamond.D object at @x10066c278> 


@ 直接 调用 d.pong() 运行 的 是 B 类 中 的 版 本 。 
O 超 类 中 的 方法 都 可 以 直接 调用 ， 此 时 要 把 实例 作为 显 式 参数 传 入 。 


Python 能 区 分 d.pong() 调用 的 是 哪个 方法 ， 是 因为 Python 会 按照 特定 的 顺序 遍历 继承 
图 。 这 个 顺序 叫 方 法 解析 顺序 (Method Resolution Order, MRO) 。 类 都 有 一 个 名 为 
_mro_ 的 属性 ， 它 的 值 是 一 个 元 组 ， 按 照 方法 解析 顺序 列 出 各 个 超 类 ， 从 当前 类 一 直 
向 上 ， 直 到 object 类 。D 类 的 ”mro 属性 如 下 (如 图 12-1 所 示 ): 

































































>>> D.__mro__ 


(<class 'diamond.D'>, <class 'diamond.B'>, <class '‘diamond.C'>, 
<class 'diamond.A'>, <class ‘object'>) 


知 想 把 方法 调用 委托 给 超 类 ， 推 荐 的 方式 是 使 用 内 置 的 super () 函数 ， 在 Python 3 中 ， 


























这 种 方式 变 得 更 容易 了 ， 如 示例 12-4 中 D 类 的 pingpong 方法 所 示 。4 然而 ， 有 时 可 能 需 
要 绕 过 方法 解析 顺序 ， 直 接 调用 某 个 超 类 的 方法 一 -这样 做 有 时 更 方便 。 例 如 ，D.ping 
方法 可 以 这 样 写 : 



































4 在 Python 2 中 ， 要 把 D.pingpong 方法 的 第 二 行 从 super().ping() 改 成 super(D，self) .ping()。 








def ping(self): 
A.ping(self) # 而 不 是 super().ping() 


print('post-ping:', self) 








1 


注意 ， 直 接 在 类 上 调用 实例 方法 时 ， 必 须 显 式 传 入 self 参数 ， 因 为 这 样 访问 的 是 未 绑 定 
方法 (unbound method) 。 


然而 ， 使 用 super() 最 安全 ， 也 不 易 过 时 。 调 用 框架 或 不 受 自己 控制 的 类 层次 结构 中 的 
a super()。 使 用 super() 调用 方法 时 ， 会 遵守 方法 解析 顺序 ， 如 
示例 12-6 所 示 。 



































示例 12-6 使 用 super() 函数 调用 ping 方法 (源码 在 示例 12-4 中 ) 





>>> from diamond import D 

>>> d = D() 

>>> d.ping() # 0 

ping: <diamond.D object at 6x16cc46636> #@ 
post-ping: <diamond.D object at @x1@cc40630> # © 











OD 类 的 ping 方法 做 了 两 次 调用 。 


O 第 一 个 调用 是 super() .ping(); super 函数 把 ping 调用 委托 给 A 类 ; 这 一 行 由 
A.ping 输出 。 














© 第 二 个 调用 是 print('post-ping:'，self)， 输 出 的 是 这 一 行 。 
下 面 来 看 在 D 实例 上 调用 pingpong 方法 得 到 的 结果 ， 如 示例 12-7 所 示 。 


示例 12-7 pingpong 方法 的 5 个 调用 (源码 在 示例 12-4 中 ) 














>>> from diamond import D 

>>> d = D() 

>>> d.pingpong() 

ping: <diamond.D object at @x1@bf235c@> #@ 
post-ping: <diamond.D object at @x1@bf235c@> 
ping: <diamond.D object at @x1@bf235c@> #@ 
pong: <diamond.D object at @x1@bf235c@> # © 
pong: <diamond.D object at @x1@bf235c@> #@ 
PONG: <diamond.D object at @x1@bf235c@> # O 





















































@ 第 一 个 调用 是 self.ping()， 运 行 的 是 D 类 的 ping 方法 ， 输 出 这 一 行 和 下 一 行 。 
O 第 二 个 调用 是 super() .ping()， 跳 过 D 类 的 ping 方法 ， 找 到 A 类 的 ping 方法 。 
O 第 三 个 调用 是 self.pong()， 根 据 _mro__， 找 到 的 是 B 类 实现 的 pong 方法 。 

O 第 四 个 调用 是 super().pong()， 也 根据 ”mro  ， 找 到 B 类 实现 的 pong 方法 。 
O 第 五 个 调用 是 C.pong(self)， 忽 略 mro ， 找 到 的 是 C 类 实现 的 pong 方法 。 

方法 解析 顺序 不 仅 考 虑 继承 图 ， 还 考虑 子 类 声明 中 列 出 超 类 的 顺序 。 也 就 是 说 ， 如 果 在 











diamond.py 文 件 〈 见 示例 12-4) 中 把 D 类 声明 为 class D(C, B):, ABAD 类 的 
_mro__ 属性 就 会 不 一 样 : 先 搜索 C 类 ， 再 搜索 B 类。 




















i 











分 析 类 时 ， 我 经 常 在 交互 式 控 制 台中 查看 __mro 属性。 示例 12-8 中 是 一 些 常 用 类 的 方 
法 搜索 顺序 。 


示例 12-8 ”查看 几 个 类 的 __mro__ 属性 











>>> bool. mro_ @ 
(<class 'bool'>, <class ‘int'>, <class ‘object'>) 
>>> def print_mro(cls): @ 
print(', '.join(c. name _ for c in cls.__mro_)) 


>>> print_mro(bool) 

bool, int, object 

>>> from frenchdeck2 import FrenchDeck2 

>>> print_mro(FrenchDeck2) © 

FrenchDeck2, MutableSequence, Sequence, Sized, Iterable, Container, object 
>>> import numbers 

>>> print_mro(numbers.Integral) @ 

Integral, Rational, Real, Complex, Number, object 
>>> import io © 

>>> print_mro(io.BytesI0O) 

BytesIO, _BufferedIOBase, _IOBase, object 

>>> print_mro(io.TextIOWrapper) 

TextIOWrapper, _TextIOBase, _IOBase, object 














@ bool 从 int F object 中 继承 方法 和 属性 。 

© print_mro 函数 使 用 更 紧凑 的 方式 显示 方法 解析 顺序 。 

@ FrenchDeck2 类 的 祖先 包含 collections.abc 模块 中 的 几 个 抽象 基 类 。 
O 这 些 是 numbers 模块 提供 的 几 个 数字 抽象 基 类 。 


O io 模块 中 有 抽象 基 类 〈 名 称 以 . . .Base BRA) 和 具体 类 ， 如 BytesI0O 和 
TextIOWrapper. open() 函数 返回 的 对 象 属于 这 些 类 型 ， 具体 要 根据 模式 参数 而 定 。 


A 


方法 解析 顺序 使 用 C3 算法 计算 。Michele Simionato 的 论文 “The Python 2.3 Method 
Resolution Order” Chttps://www. python. org/download/releases/2.3/mro/) 对 Python 方法 
解析 顺序 使 用 的 C3 算法 做 了 权威 论述 。 如 果 对 方法 解析 顺序 的 细节 感 兴 趣 ， 可 以 阅 
读 延 伸 阅 读 中 给 出 的 资料 。 不 用 过 分 担心 ，C3 算法 不 难 理解 ，Simionato 写 道 : 


除非 大 量 使 用 多 重 继承 ， 或 者 继承 关系 不 同 寻 常 ， 否 则 不 用 了 解 C3 算法 ， 
因此 也 不 用 阅读 这 篇 论文 。 


结束 对 方法 解析 顺序 的 讨论 之 前 ， 我 们 来 看 看 图 12-2。 这 幅 图 展示 了 Python 标准 库 中 
GUI 工具 包 Tkinter 复杂 的 多 重 继承 图 。 研 究 这 幅 图 时 ， 要 从 底部 的 Text 类 开始 。 这 个 类 
全 面 实现 了 多 行 可 编辑 文本 小 组 件 ， 它 自身 有 丰富 的 功能 ， 不 过 也 从 其 他 类 继承 了 很 多 广 
法 。 左 边 是 常规 的 UML 类 图 。 右 边 加 入 了 一 些 箭头 ， 表 示 方 法 解析 顺序 。 使 用 示例 12-8 
定义 的 便利 函数 print_mro 得 到 的 输出 如 下 : 





























































































































>>> import tkinter 


>>> print_mro(tkinter. Text) 
Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 
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12-2: (Æ) Tkinter 中 Text 小 组 件 类 及 其 超 类 的 UML XK; CA) 使 用 虚线 第 


头 表 示 Text.__mro__ 
下 一 节 以 真实 框架 为 例 说 明 多 重 继承 的 优 缺 点 。 


12.3 多重 继 承 的 真实 应 用 


多 重 继承 能 发 挥 积极 作用 。《 设 计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 中 的 适配器 模 
式 用 的 就 是 多 重 继承 ， 因 此 使 用 多 重 继承 肯定 没有 错 《〈 那 本 书 中 的 其 他 22 个 设计 模式 都 
使 用 单 继承 ， 因 此 多 重 继承 显然 不 是 灵丹妙药 ) 。 


在 Python 标准 库 中 ， 最 常 使 用 多 重 继承 的 是 collections.abc 包 。 这 没什么 问题 ， 毕 竟 
连 Java 都 文 持 接 口 的 多 重 继承 ， 而 抽象 基 类 就 是 接口 声明 ， 只 不 过 它 可 以 提供 具体 方法 
的 实现 。 
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5 前 面 说 过 ，Java 8 也 允许 提供 方法 实现 。 这 个 新 功能 在 官方 的 Java 教程 中 叫 默认 方法 
| (Chttps://docs.oracle.com/javase/tutorial/java/IandI/defaultmethods.html) 。 


























在 标准 库 中 ，GUI 工具 包 Tkinter (tkinter 模块 是 Tcl/Tk 的 Python 接 

H, https://docs.python.org/3/library/tkinter.html) 把 多 重 继 承 用 到 了 极致 。 图 12-2 中 展示 的 
方法 解析 顺序 是 Tkinter 小 组 件 层次 结构 的 一 部 分 ， 图 12-3 则 列 出 了 tkinter 基 包 中 的 
全 部 小 组 件 类 (tkinter.ttk 子 包 中 还 有 一 

些 ，https://docs.python.org/3/library/tkinter.ttk.html ) 。 
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12-3: Tkinter GUI 类 层次 结构 的 UML 简 图 ; 使 用 «mixin 标记 的 类 通过 多 重 继承 
为 其 他 类 提供 具体 方法 























写作 本 书 时 ，Tkinter 已 经 20 岁 了 ， 不 能 代表 当下 的 最 佳 实践 。 但 是 ， 它 却 能 表明 当 没 有 
意识 到 多 重 继承 的 缺点 时 ， 程 序 员 是 如 何 使 用 多 重 继承 的 。 下 一 节 讨 论 一 些 好 的 做 法 时 ， 
会 把 Tkinter 作为 反面 教材 。 

来 看 图 12-3 中 的 几 个 类 。 

@Toplevel: 表示 Tkinter 应 用 程序 中 顶层 窗口 的 类 。 

Owidget: 窗口 中 所 有 可 见 对 象 的 超 类 。 

© Button: 普通 的 按钮 小 组 件 。 

O Entry: 单行 可 编辑 文本 字段 。 

加 Text: 多 行 可 编辑 文本 字段 。 

这 几 个 类 的 方法 解析 顺序 如 下 ， 这 些 输出 使 用 示例 12-8 中 定义 的 print_mro 函数 得 到 : 
































>>> import tkinter 

>>> print_mro(tkinter.Toplevel) 

Toplevel, BaseWidget, Misc, Wm, object 

>>> print_mro(tkinter.Widget) 

Widget, BaseWidget, Misc, Pack, Place, Grid, object 

>>> print_mro(tkinter.Button) 

Button, Widget, BaseWidget, Misc, Pack, Place, Grid, object 

>>> print_mro(tkinter. Entry) 

Entry, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, object 
>>> print_mro(tkinter. Text) 

Text, Widget, BaseWidget, Misc, Pack, Place, Grid, XView, YView, object 

















在 类 之 间 的 关系 方面 有 几 点 要 注意 。 


e Toplevel 是 所 有 图 形 类 中 唯一 没有 继承 Widget 的 ， 因 为 它 是 顶层 窗口 ， 行 为 不 像 
小 组 件 ， 例 如 不 能 依附 到 窗口 或 窗 体 上 。Toplevel 继承 自 Wm， 后 者 提供 直接 访问 宿 
主 窗口 管理 器 的 函数 ， 例 如 设置 窗口 标题 和 配置 窗口 边框 。 

e Widget 直接 继承 自 Basewidget， 还 继承 了 Pack、Place 和 Grid。 后 三 个 类 是 几 
i 负责 在 窗口 或 窗 体 中 排 布 小 组 件 。 各 个 类 封装 了 不 同 的 布局 策略 和 小 组 件 
立 置 API 


e Button 与 大 多 数 小 组 件 一 样 ， 只 是 Widget 的 子 代 ， 也 间接 继承 Misc， 后 者 为 各 个 
小 组 件 提供 了 大 量 方法 。 


e Entry 是 Widget 和 XView 的 子 类 ， 后 者 实现 横向 滚动 。 









































































































































e Text 是 Widget. XView 和 YView 的 子 类 ， 后 者 提供 纵向 滚动 功能 。 


下 面 将 讨论 多 重 继承 一 些 好 的 做 法 ， 看 看 Tkinter 有 没有 践 行 。 














12.4 


处 理 多 重 继承 

















Doni 我 们 需要 一 种 更 好 的 、 全 新 的 继承 理论 (目前 仍 是 如 此 〉。 例 如 ， 继 承 和 实例 化 
(一 种 继承 方式 ) 混淆 了 i gee E STA RIS) 和 语义 〈 用 途 太 多 
了 ， 比 如 特殊 化 、 普 遍 化 、 形 态 ， 等 等 ) 




















Alan Kay 
“The Early History of Smalltalk” 








如 Alan Kay 所 言 ， 继 承 有 很 多 用 途 ， 而 多 重 继承 增加 了 可 选 方案 和 复杂 度 。 使 用 多 重 继 
承 容 易 得 出 令 人 费解 和 脆弱 的 设计 。 我 们 还 没有 完整 的 理论 ， 下 面 是 避免 把 类 图 搅乱 的 一 








01. 把 接口 继承 和 实现 继承 区 分 开 
使 用 多 重 继承 时 ， 一 定 要 明确 一 开始 为 什么 创建 子 类 。 主 要 原因 可 能 有 : 


。 继承 接口 ， 创 建 子 类 型 ， 实 现 “ 是 
过 重用 避免 代码 重复 
其 实 这 两 条 经 党 同时 出 现 ， 不 过 只 要 可 能 ， 一 定 要 明确 意 


。 继承 实现 ， 通 
























































什么 ”关系 





























。 通 过 继承 重用 代码 是 实 








im Al 
现 细节 ， 通 常 可 以 换 用 组 合 和 委托 模式 。 而 接口 继承 则 是 框架 的 支柱 。 
02. 使 用 抽象 基 类 显 式 表示 接口 


现代 的 Python 中 ， 如 果 类 的 作用 是 定义 接口 ， 应 该 明确 
34 及 以 上 的 版 本 中 ， 我 们 要 创建 abc .ABC 或 其 他 抽象 基 

















的 Python 版 本 ， 参 见 11.7.1 节 ) 。 
03. 通过 混入 重用 代码 
个 类 的 作用 是 为 多 个 不 相关 的 子 类 提供 方法 实现 ， 从 而 实现 重用 ， 但 不 体 


如 果 一 
现 “ 是 








混入 不 定义 新 类 型 ， 只 是 打包 方法 ， 
不 能 只 继承 混入 类 。 温 入 类 应 该 提供 
方法 。 
04. 在 名 称 


因为 在 Python 中 没有 把 类 





























EE MAMA 基 类 。Python 
类 的 子 类 如 果 想 支持 较 旧 











ie 


























oeo ee 





角 地 定义 为 混入 类 Cmixinclass) 。 从 概念 上 讲 ， 


























便于 重用 。 混 入 类 绝对 不 能 实例 化 ， 而 且 具 体 类 























某 方面 的 特定 行为 ， 只 实现 少量 关系 非常 紧密 的 














中 明确 指明 混入 























声明 为 混入 的 正规 方式 ， 所 以 强烈 推荐 在 名 称 中 加 入 





..Mixin EZ. Tkinter 没有 采纳 这 个 建议 ， 如 果 采 纳 的 话 ，XView 会 变 成 
XViewMixin, Pack 会 变 成 PackMixin， 图 12-3 中 所 有 使 用 «mixin 标记 的 类 都 应 
该 这 么 做 。 


05. 抽象 











基 类 可 以 作为 混入 ， 反 过 来 则 











不 成 立 


06. 


07. 


08. 











抽象 基 类 可 以 实现 具体 方法 ， 因 此 也 可 以 作为 混入 使 用 。 不 过 ， 抽 象 基 类 会 定义 类 
型 ， 而 混入 做 不 到 。 此 外 ， 抽 象 基 类 可 以 作为 其 他 类 的 唯一 基 类 ， 而 混入 决 不 能 作为 
唯一 的 超 类 ， 除 非 继承 另 一 个 更 具体 的 混入 一 “真实 的 代码 很 少 这 样 做 。 


抽象 基 类 有 个 局 限 是 混入 没有 的 : 抽象 基 类 中 实现 的 具体 方法 只 能 与 抽象 基 类 及 其 超 
类 中 的 方法 协作 。 这 表明 ， 抽 象 基 类 中 的 具体 方法 只 是 一 种 便利 措施 ， 因 为 这 些 方法 
所 做 的 一 切 ， 用 户 调用 抽象 基 类 中 的 其 他 方法 也 能 做 到 。 


不 要 子 类 化 多 个 具体 类 
具体 类 可 以 没有 ， 或 最 多 只 有 一 个 具体 超 类 。9 也 就 是 说 ， 有 具体 类 的 超 类 中 除了 这 一 


个 有 具体 超 类 之 外 ， 其 余 的 都 是 抽象 基 类 或 混入 。 例 如 ， 在 下 述 代 码 中 ， 如 果 Alpha 
是 具体 类 ， 那 么 Beta 和 Gamma 必须 是 抽象 基 类 或 混入 : 
























































class MyConcreteClass(Alpha, Beta, Gamma): 
'"" 这 是 一 个 有 具体 类 ， 可 以 实例 化 。""" 

















为 用 户 提供 聚合 类 


如 果 抽 象 基 类 或 混入 的 组 合 对 客户 代码 非常 有 用 ， 那 就 提供 一 个 类 ， 使 用 易于 理解 的 
方式 把 它们 结合 起 来 。Grady Booch 把 这 种 类 称 为 聚合 类 (aggregate class) . 7 


例如 ， 下 面 是 tkinter.Nidget 类 的 完整 代码 
Chttps://hg.python.org/cpython/file/3.4/Lib/tkinter/ _ init .py#12141) : 






































class Widget(BaseWidget, Pack, Place, Grid): 
'""Internal class. 


Base class for a widget which can be positioned with the 
geometry managers Pack, Place or Grid.""" 
pass 








Widget 类 的 定义 体 是 空 的 ， 但 是 这 个 类 提供 了 有 用 的 服务 : 把 四 个 超 类 结合 在 一 
起 ， 这 样 需 要 创建 新 小 组 件 的 用 户 无 需 记 住 全 部 混入 ， 也 不 用 担心 声明 class 语句 
时 有 没有 遵守 特定 的 顺序 。Django 中 的 ListView 类 是 更 好 的 例子 ， 稍 后 在 12.5 节 


讨论 。 
“优先 使 用 对 象 组 合 ， 而 不 是 类 继承 ” 


这 句 话 引 自 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 ，8 这 是 我 能 提供 的 最 佳 
建议 。 熟 悉 继 承 之 后 ， 就 太 容易 过 度 使 用 它 了 。 出 于 对 秩序 的 诉求 ， 我 们 喜欢 按 整 洁 
的 层次 结构 放置 物品 ， 程 序 员 更 是 乐此不疲 。 


然而 ， 优 先 使 用 组 合 能 让 设计 更 灵活 。 例 如 ， 对 tkinter Widget 类 来 说 ， 它 可 以 
不 从 全 部 几何 管理 器 中 继承 方法 ， 而 是 在 小 组 件 实例 中 维护 一 个 几何 管理 器 引用 ， 然 
后 通过 它 调用 方法 。 毕 竟 ， 小 组 件 “ 不 是 ”几何 管理 器 ， 但 是 可 以 通过 委托 使 用 相关 的 
服务 。 这 样 ， 我 们 可 以 放心 添加 新 的 几何 管理 器 ， 不 必 担 心 会 触动 小 组 件 类 的 层次 结 

















































































































构 ， 也 不 必 担 心 名 称 冲突 。 即 便 是 单 继承 ， 这 个 原则 也 能 提升 灵活 性 ， 因 为 子 类 化 是 
一 种 紧 炮 合 ， 而 且 较 高 的 继承 树 容易 倒 。 


组 合 和 委托 可 以 代替 混入 ， 把 行为 提供 给 不 同 的 类 ， 但 是 不 能 取代 接口 继承 去 定义 类 
型 层次 结构 。 
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| 6 在 “水 禽 和 抽象 基 类 ”中 ，Alex Martelli 提 到 Scott Meyer 写 的 More Effective C++ 一 书 ， 他 做 得 更 绝 ,“ 将 非 尾 端 类 设计 
| 为 抽象 类 ”( 即 ， 具 体 类 根本 不 应 该 有 有 具体 超 类 ) 。 









































| “如 果 一 个 类 的 结构 主要 继承 自 混入 ， 自 身 没 有 添加 结构 或 行为 ， 那 么 这 样 的 类 称 为 聚合 类 。”Grady Booch et al, 
| Object Oriented Analysis and Design, 3E (Addison-Wesley, 2007), p. 109. 














| 8 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 第 13 页 。 

















接 下 来 ， 我 们 将 从 这 些 建 议 入 手 分 析 Tkinter。 


Tkinter 好 的 、 不 好 的 和 令 人 厌恶 的 方面 








\ 记 住 一 点 ， 自 1994 年 发 布 的 Python 1.1 起 ，Tkinter 就 在 标准 库 中 了 。Tkinter 
的 底层 是 Tel 语言 优秀 的 GUI 工具 包 Tk。Tel/Tk 组 合 原 本 不 是 面向 对 象 的 ， 因 此 Tk 
API 基本 上 就 是 一 扒 函 数 。 尽 管 没 有 使 用 面向 对 象 方式 实现 ， 但 是 这 个 工具 包 的 理念 
极 具 面 向 对 象 思想 。 


前 几 节 给 出 的 建议 Tkinter 大 都 没有 采用 ， 不 过 第 7 点 是 个 例外 。 但 是 Tkinter 做 得 并 不 
好 ， 因 为 使 用 组 合 模式 把 几何 管理 器 集成 到 Widget 中 更 好 ， 如 第 8 点 所 述 。 


tkinter.Widget 类 的 文档 字符 串 开 头 说 它 是 “内 部 类 ”。 这 或 许 表明 Widget 应 该 定义 为 
抽象 基 类 。Widget 自身 虽然 没有 方法 ， 但 是 它 定 义 了 接口 。 它 传达 的 意思 是 :“ 每 个 
Tkinter 小 组 件 都 会 提供 基本 的 方法 (init, destroy, URS Tk API 函数 ) ， 此 
外 还 会 提供 三 个 几何 管理 器 中 的 全 部 方法 。” 你 可 以 不 同意 这 是 定义 接口 的 好 方式 ( 太 宽 
ZY) ， 但 是 这 样 确 实 能 定义 接口 ，Widget 就 把 接口 “定义 ”为 超 类 接口 的 联合 。 


封装 GUI 应 用 逻辑 的 Tk 类 继承 自 Wm 和 Misc， 这 两 个 类 既 不 是 抽象 类 ， 也 不 是 混入 《Wm 
不 算是 混入 ， 因 为 TopLevel 的 超 类 只 有 它 一 个 ) 。Misc 类 的 名 称 本 身 明显 是 代码 异 
味 。 Misc 有 100 多 个 方法 ， 而 且 所 有 小 组 件 类 都 继承 它 。 为 什么 每 个 小 组 件 都 要 处 理 剪 
切 板 、 文 本 选择 和 计时 器 等 ? 我 们 可 能 不 能 把 文本 粘贴 到 按钮 上 ， 也 不 能 选择 滚动 条 里 的 
文字 。 Misc 应 该 拆 分 成 几 个 专门 的 混入 类 ， 而 且 不 是 所 有 小 组 件 都 应 该 继承 这 些 混 入 。 


说 实在 的 ， 作 为 Tkinter 的 用 户 ， 你 根本 不 用 知道 或 使 用 多 重 继承 。 那 些 都 是 隐藏 起 来 的 
实现 细节 ， 你 在 自己 的 代码 中 只 需 实例 化 或 子 类 化 小 组 件 类 。 不 过 ， 如 果 你 想 查找 自己 需 
要 的 方法 ， 在 控制 台中 输入 dir(tkinter.Button)， 你 会 发 现 列 出 了 214 个 属性 ，?》 此 
时 你 就 是 多 重 继承 的 受害 者 。 


















































































































































| ?目前 的 版 本 中 只 有 209 个 属性 。 一 一 编者 注 




















除了 这 些 问 题 ，Tkinter 还 是 稳定 而 灵活 的 ， 未 必 那 么 不 堪 。 陈 旧 〈 和 默认 ) 的 Tk 小 组 件 
没有 考虑 现代 的 用 户 界 面 ， 但 是 Python 3.1 (2009 FRH) 提供 了 tkinter.ttk 包 ， 这 
个 包 提 供 的 小 组 件 很 精美 ， 外 观 同 原生 的 一 样 ， 开 发 出 的 GUI 应 用 也 更 专业 。 此 外 ， 有 
些 陈旧 的 小 组 件 ， 如 Canvas 和 Text， 功 能 异常 强大 。 只 需 少 量 代 码 ， 就 能 把 一 个 

Canvas 对 象 打造 成 简单 的 拖 搜 绘图 应 用 。 如 果 你 对 GUI 编程 感 兴趣 ，Tkinter 和 Tel/Tk 2 
对 值得 一 看 


然而 ， 我 们 的 主题 不 是 GUI 编程 ， 而 是 多 重 继承 的 运用 。 显 式 使 用 混入 类 的 现代 示例 在 
Dijango 中 可 以 找到 。 
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12.5 一 个 现代 示例 : Django 通 用 视图 中 的 混入 





` 阅读 本 节 不 需要 掌握 Django 知识 。 我 只 是 使 用 这 个 框架 的 一 小 部 分 为 例 说 明 
多 重 继承 的 运用 ， 我 会 尽量 给 出 所 需 的 全 部 背景 知识 ， 而 且 假设 你 使 用 其 他 语言 或 
架 做 过 服务 器 端 Web 开发 。 


在 Django 中 ， 视 图 是 可 调用 的 对 象 ， 它 的 参数 是 表示 HTTP 请 求 的 对 象 ， 返 回 值 是 一 个 
表示 HTTP 响应 的 对 象 。 我 们 要 关注 的 是 这 些 响应 对 象 。 响 应 可 以 是 简单 的 重 定向 ， 没 有 
主体 内 容 ， 也 可 以 是 复杂 的 内 容 ， 如 在 线 商 店 的 目录 页 面 ， 它 使 用 HIML 模板 泻 染 ， 列 
出 多 个 货品 ， 而 且 有 购买 按钮 和 详情 页 面 链接 。 


起 初 ，Django 提供 的 是 一 系列 函数 ， 这 叫 通用 视图 ， 实 现 常 见 的 用 例 。 例 如 ， 很 多 网 站 

都 需要 展示 搜索 结果 ， 里 面包 含 很 多 项 目 ， 分 成 多 页 ， 而 且 各 个 项 目 会 链接 到 详细 信息 页 
面 。 在 Django 中 ， 这 种 需求 使 用 列表 视图 和 详情 视图 实现 ， 前 者 用 于 泻 染 搜索 结果 ， 后 

者 用 于 生成 各 个 项 目的 详情 页 面 。 


然而 ， 最 初 的 通用 视图 是 函数 ， 不 能 扩展 。 如 果 需 求 与 列表 视图 相似 但 不 完全 一 样 ， 那 么 
不 得 不 自己 从 头 实现 。 


Django 1.3 引入 了 基于 类 的 视图 ， 而 且 还 通过 基 类 、 混 入 和 拿 来 即 用 的 具体 类 提供 了 一 些 
通用 视图 类 。 这 些 基 类 和 混入 在 django.views.generic 包 的 base 模块 里 ， 如 图 12-4 
所 示 。 在 这 张 图 中 ， 位 于 顶部 的 两 个 类 ，View 和 TemplateResponseMixin， 人 负责 完全 
不 同 的 工作 。 




































































a 在 Classy Class-Based Views Px Chttp://ccbv.co.uk) 中 可 以 深入 研究 这 些 类 ， 
你 可 以 轻松 地 浏览 各 个 视图 类 、 查 看 它们 的 全 部 方法 (继承 的 、 履 新 的 和 自己 添加 
的 ) 、 查 看 图 表 、 浏 览 文档 ， 以 及 跳 转 到 GitHub 中 的 源码 
Chttps://github.com/django/django/tree/master/django/views/generic) 。 
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12-4: django.views.generic.base 模块 的 UML 类 图 























View 是 所 有 视图 (可 能 是 个 抽象 基 类 ) 的 基 类 ， 提 供 核心 功能 ， 如 dispatch 方法 。 这 
个 方法 委托 具体 子 类 实现 的 处 理 方法 Chandler) ， 如 get. head, post 等 ， 处 理 不 同 的 
HTTP 动词 。10RedirectView 类 只 继承 View， 可 以 看 到 ， 它 实现 了 get. head. post 


等 方法 。 































































































“Django 程序 员 知 道 ，as_view 类 方法 是 View 接口 最 为 重要 的 部 分 ， 不 过 它 与 这 里 讨论 的 话题 无 关 。 























View 的 具体 子 类 应 该 实现 处 理 方法 ， 但 它们 为 什么 不 在 View 接口 中 呢 ? 原因 是 : FR 









































只 需 实现 它们 想 支 持 的 处 理 方法 。TemplateView 只 用 于 显示 内 容 ， 因 此 它 只 实现 了 get 





ii 
查 ， 





KE 。 如 果 把 HTTP POST 请 求 发 给 TemplateView， 经 继承 的 View.dispatch 方法 检 























它 没 有 post 处 理 方法 ， 因 此 会 返回 HTTP 465 Method Not Allowed (不 允许 使 用 














的 方法 ) map, H 


‖ 工 如 果 深 入 了 解 设计 模式 ， 你 会 发 现 Django 的 分 派 机 制 是 动态 版 模板 方法 模式 
Chttps//en.wikipedia.org/wiki/Template_method_pattern) 。 之 所 以 说 是 动态 的 ， 是 因为 View 类 不 强制 子 类 实现 所 有 处 理 
| 方法 ， 而 是 让 dispatch 方法 在 运行 时 检查 有 没有 针对 特定 请 求 的 具体 处 理 方法 。 
TemplateResponseMixin 提供 的 功能 只 针对 需要 使 用 模板 的 视图 。 例 

如 ，RedirectView 没有 主体 内 容 ， 因 此 它 不 需要 模板 ， 也 就 没有 继承 这 个 混 
A. TemplateResponseMixin 为 TemplateView 和 django.views.generic 包 中 定义 
的 使 用 模板 泻 染 的 其 他 视图 〈 例 如 ListView、Detailview， 等 等 ) 提供 行为 。 图 12-5 
Æ django.views.generic. list 模块 和 部 分 base 模块 的 图 解 。 


MultipleObjectMixin 


allow_empty 


context_object_name ContextMixin 


model 

Sorte TemplateResponseMixin 
paginate_by 八 

paginate_orphans 

paginator_class 

queryset 




















































































































get_allow_empty 
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12-5: django.views.generic.list 模块 的 UML 类 图 ; 图 中 属于 base 模块 的 三 
个 类 没有 详细 说 明 (参见 图 12-4) ; ListView 类 没有 方法 和 属性 ， 它 是 一 个 聚合 类 


对 Django 用 户 来 说 ， 在 图 12-5 中 ， 最 重要 的 类 是 ListView。 这 是 一 个 聚合 类 ， 不 含 任 

何 代 码 〈 定 义 体 中 只 有 一 个 文档 字符 串 ) 。ListView 实例 有 个 object_list 属性 ， 模 

板 会 迭代 它 显 示 页 面 的 内 容 ， 通 常 是 数据 库 查 询 返 回 的 多 个 对 象 。 生 成 这 个 可 迭代 对 象 列 
表 的 相关 功能 都 由 Multiple0bJjectMixin 提供 。 这 个 混入 还 提供 了 复杂 的 分 页 逻辑 ， 即 
在 一 页 中 显示 部 分 结果 ， 并 提供 指向 其 他 页 面 的 链接 。 


假设 你 想 创建 一 个 使 用 模板 演 染 的 视图 ， 但 是 会 生成 一 组 JSON 格式 的 对 象 ， 此 时 用 得 到 
BaseListView 类 。 这 个 类 提供 了 易于 使 用 的 扩展 点 ， 把 View 和 
MultipleObjectMixin 的 功能 整合 在 一 起 ， 避 免 了 模板 机 制 的 开销 。 


与 Tkinter 相 比 ，Django 基于 类 的 视图 API 是 多 重 继承 更 好 的 示例 。 尤 其 是 ，Dijango 的 混 
入 类 易于 理解 : 各 个 混入 的 目的 明确 ， 而 且 名 称 的 后 缀 都 是 . . .Mixin。 







































































Django 用 户 还 没有 完全 拥抱 基于 类 的 视图 。 很 多 人 确实 在 使 用 ， 但 是 用 法 有 限 ， 把 它们 
当成 黑 盒 ， 需 要 新 功能 时 ， 很 多 Django 程序 员 依然 选择 编写 单 块 视图 函数 ， 负 责 处 理 所 
有 事务 ， 而 不 尝试 重用 基 视 图 和 混入 。 
学 习 基 于 类 的 视图 和 根据 应 用 需求 扩展 它们 确实 需要 一 些 时 间 ， 不 过 我 觉得 这 是 值得 的 : 
基于 类 的 视图 能 避免 大 量 样板 代码 ， 便 于 重用 ， 还 能 增进 团队 交流 一 一 例如 ， 为 模板 和 传 
给 模板 上 下 文 的 变量 定义 标准 的 名 称 。 基 于 类 的 视图 把 Django 视图 带 到 了 正轨 上 。 


我 们 对 多 重 继 承 和 混入 类 的 讨论 到 此 结束 。 






































































































































12.6 本章 小 结 


本 章 对 继承 的 讨论 先 从 子 类 化 内 置 类 型 引起 的 问题 谈 起 : 内 置 类 型 的 原生 方法 使 用 C 语 
言 实现 ， 不 会 调用 子 类 中 覆盖 的 方法 ， 不 过 有 极 少数 例外 。 因 此 ， 需 要 定制 list. dict 
或 str 类 型 时 ， 子 类 化 UserList、UserDict 或 UserString 更 简单 。 这 些 类 在 
collections 模块 〈https:/docs.python.org/3/librarycollections.html) 中 定义 ， 它 们 其 实 是 
对 内 置 类 型 的 包装 ， 会 把 操作 委托 给 内 置 类 型 一 一 这 是 标准 库 中 优先 选择 组 合 而 不 使 用 继 
承 的 三 个 例子 。 如 果 所 需 的 行为 与 内 置 类 型 区 别 很 大 ， 或 许 更 容易 的 做 法 是 ， 子 类 化 
collections.abc 模块 (https://docs.python.org/3/library/collections.abc.html〉 中 相应 的 抽 
象 基 类 ， 然 后 自己 实现 。 


本 章 余 下 的 内 容 着 重 探讨 了 多 重 继承 这 把 双 刃 剑 。 首 先 ， 我 们 说 明了 _mro_ 类 属性 中 
蕴藏 的 方法 解析 顺序 ， 有 了 这 一 机 制 ， 继 承 方法 的 名 称 不 再 会 发 生 冲 突 。 我 们 还 提 到 ， 内 
置 的 super() 函数 会 按照 _mro__ 属性 给 出 的 顺序 调用 超 类 的 方法 。 然 后 ， 我 们 分 析 了 
Python 标准 库 中 GUI 工具 包 Tkinter 对 多 重 继承 的 运用 。Tkinter 不 能 代表 当前 的 最 佳 实 
践 ， 因 此 我 们 讨论 了 处 理 多 重 继承 的 一 些 方式 ， 例 如 谨慎 使 用 混入 类 ， 以 及 借助 组 合 模式 
彻底 避免 使 用 多 重 继承 。 指 出 Tkinter 对 多 重 继承 的 使 用 已 经 到 了 滥用 的 程度 后 ， 我 们 在 
最 后 一 节 分 析 了 Django 基于 类 的 视图 ， 了 解 了 它们 的 核心 层次 结构 。 我 觉得 这 更 好 地 利 
用 了 混入 。 


Lennart Regebro〔 一 位 经 验 非常 丰富 的 Python 程序 员 ， 也 是 本 书 的 技术 审 校 之 一 ) 发 现 
Django 通过 混入 设计 的 视图 层次 结构 有 点 混乱 。 但 是 他 又 写 道 : 


多 重 继承 的 危害 和 缺点 被 放大 了 。 我 从 来 不 觉得 它 是 什么 大 问题 。 


总 之 ， 每 个 人 对 如 何 使 用 以 及 要 不 要 在 自己 的 项 目 中 使 用 多 重 继承 都 有 自己 的 观点 。 但 
是 ， 我 们 往往 没 得 选择 ， 因 为 我 们 必须 使 用 的 框架 有 它们 自己 的 选择 。 




















































































































12.7 延伸 阅读 


使 用 抽象 基 类 时 ， 多 重 继 承 很 常见 ， 而 且 实 际 上 也 是 不 可 避免 的 ， 因 为 最 基本 的 集合 抽象 
其 类 (Sequence, Mapping 和 Set) 都 扩展 多 个 抽象 基 类 。collections.abc 的 源 但 
(Lib/ collections abc.py, https: a org/cpython/file/3.4/Lib/ collections abe.py) 是 
抽象 基 类 使 用 多 重 继承 的 范例 一 一 其 中 很 多 还 是 混入 类 。 











Raymond Hettinger 写 的 文章 “Python's super() considered 

super!” Chttps://rhettinger.wordpress.com/2011/05/26/super-considered-super/) ， 从 积极 的 角 
度 解 说 了 Python 的 super 和 多 重 继承 的 运作 原理 。 这 篇 文章 是 对 James Knight 的 “Python's 
Super is nifty, but you can't use it” (以 前 题 为 “Python's Super Considered 

Harmful”, https://fuhm.net/super-harmful/) 一 文 作出 的 回应 。 


尽管 这 两 篇 文章 的 题目 中 提 到 了 内 置 的 super 函数 ， 但 它 TANTEN 问题 一 Python 3 中 
的 super 函数 没有 Python 2 中 那么 令 人 讨厌 了 。 真 正 的 问题 是 多 重 继承 ， 它 天 生 复 杂 ， 
难以 处 理 。Michele Simionato 不 再 批评 这 一 点 ， 他 在 : ‘Setting Multiple Inheritance Straight”— 
X Chttp://www.artima.com/weblogs/viewpost {jsp?thread=246488) 中 给 出 了 解决 方案 : 他 实 
现 了 性 状 Crai ， 这 是 一 种 受 限 的 混入 ， 源 自 Self 语言 。Simionato 写 了 一 系列 具有 启发 
性 的 博客 文章 ， 对 Python 的 多 重 继承 进行 了 探讨 ， 包 括 “The wonders of cooperative 
inheritance, or using super in Python 3” Chips neue artima Cony weblops Vie wpost) sp? 
thread=281127) , “Mixins considered harmful”* 第 一 部 分 
Chttp://www.artima.com/weblogs/viewpost.jsp?thread=246341) 和 第 二 部 分 
Chttp://www.artima. .com/weblogs/viewpost jsp?thread=246483) ， 以 及 “Things to Know 
About Python Super” 第 一 部 分 Chttp://www.artima.com/weblogs/viewpost.jsp? 
thread=236275) 、 第 二 部 分 (http://www.artima.com/weblogs/viewpost.jsp?thread=236278) 
和 第 三 部 分 (http://www.artima.com/weblogs/viewpost.jsp?thread=237121) 。 最 早 的 文章 使 
FA Python 2 的 super 人 句法， 不 过 依然 值得 一 读 。 


我 读 过 ToN 写 的 《 面 癌 对 象 分 析 与 设计 《第 3 WO), RAIER, m Tl 
思维 的 通用 入 门 书 ， 与 具体 的 编程 语言 无 关 。 很 少 有 书 能 这 样 不 带 偏 见地 讨论 多 重 继 
承 
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想 想 哪些 类 是 真正 需要 的 


大 多 数 程序 员 编 写 应 用 程序 而 不 开发 框架 。 即 便 是 开发 框架 的 那些 人 ， 多 数 时 候 (或 
大 多 数 时 候 ) 也 是 在 编写 应 用 程序 。 编 写 应 用 程序 时 ， 我 们 通常 不 用 设计 类 的 层次 结 
构 。 我 们 至 多 会 编写 子 类 、 继 承 抽象 基 类 或 框架 提供 的 其 他 类 。 作 为 应 用 程序 开发 
者 ， 我 们 极 少 需要 编写 作为 其 他 类 的 超 类 的 类 。 我 们 自己 编写 的 类 几乎 都 是 末端 类 
《 即 继承 树 的 叶子 ) 。 


如 果 作 为 应 用 程序 开发 者 ， 你 发 现 自己 在 构建 多 层 类 层次 结构 ， 可 能 是 发 生 了 下 述 事 
件 中 的 一 个 或 多 个 。 



























































。 你 在 重新 发 明 轮 子 。 去 找 框架 或 库 ， 它 们 提供 的 组 件 可 以 在 应 用 程序 中 重用 。 
。 你 使 用 的 框架 设计 不 恨 。 去 寻找 替代 品 。 

。 你 在 过 度 设 计 。 记 住 要 遵守 KISS 原则 。 

。 你 厌烦 了 编写 应 用 程序 ， 决 定 新 造 一 个 框架 。 茶 喜 ， 视 你 好 运 ! 


这 些 事情 你 可 能 都 会 遇 到 : 你 厌倦 了 ， 决 定 重 新 发 明 轮 子 ， 自 己 构建 设计 过 度 和 不 民 
的 框架 ， 因 此 不 得 不 编写 一 个 又 一 个 类 去 解决 鸡毛 范 皮 的 小 事 。 和 希望 你 能 乐 在 其 中 ， 
至 少 得 到 应 有 的 回报 。 


内 置 类 型 的 不 当 行 为 是 缺陷 还 是 特性 


WAH dict, list 和 str 类 型 是 Python 的 底层 基础 ， 因 此 速度 必须 快 ， 与 这 些 内 

置 类 型 有 关 的 任何 性 能 问题 几乎 都 会 对 其 他 所 有 代码 产生 重大 影响 。 于 是 ，CPython 

走 了 捷径 ， 故 意 让 内 置 类 型 的 方法 行为 不 当 ， 即 不 调用 被 子 类 覆盖 的 方法 。 解 决 这 一 
困境 的 可 能 方式 之 一 是 ， 为 这 些 类 型 分 别提 供 两 种 实现 : 一 种 供 内 部 使 用 ， 为 解释 器 
做 了 优化 ; 另 一 种 供 外 部 使 用 ， 便 于 扩展 。 


但 是 等 等 ， 我 们 已 经 拥有 这 些 了 : UserDict、UserList 和 UserString 虽然 没有 
内 置 类 型 的 速度 快 ， 但 是 易于 扩展 。CPython 采用 的 这 种 务实 方式 意味 着 ， 我 们 也 要 
在 自己 的 应 用 程序 中 使 用 做 了 优化 但 是 难以 子 类 化 的 实现 。 这 是 合理 的 ， 因 为 我 们 每 
天 都 使 用 dict. list 和 str， 但 是 很 少 需要 定制 映射 、 列 表 或 字符 串 。 我 们 只 需 知 
道 其 中 涉及 的 取舍 。 


其 他 语言 对 继承 的 支持 


“面向 对 象 ? 这 个 术语 是 Alan Kay 发 明 的 ， 而 Smalltalk 只 支持 单 继 承 ， 不 过 有 些 派 生 
版 以 不 同 的 方式 支持 多 重 继承 ， 例 如 现代 的 Squeak 和 Smalltalk 方言 Pharo 支持 性 状 
(trait) 这 是 实现 混入 类 的 语言 结构 ， 而 且 能 避免 多 重 继承 的 一 些 问题 。 


CH 是 第 一 门 实现 多 重 继承 的 流行 语言 ， 但 是 这 一 功能 被 滥用 了 ， 因 此 意欲 取代 C++ 
的 Java 不 支持 多 重 继承 〈 即 没有 混入 类 ) 。 不 过 ，Java 8 引入 了 默认 方法 ， 这 使 得 
接口 与 C++ 和 Python 用 于 定义 接口 的 抽象 类 十 分 相似 。 但 是 它们 之 间 有 个 关键 的 区 
别 : Java 的 接口 没有 状态 。Java 之 后 ， 使 用 最 广泛 的 JVM 语言 要 数 Scala 了 ， 而 它 
实现 了 性 状 。 支 持 性 状 的 其 他 语言 还 有 最 新 稳定 版 PHP 和 Groovy， 以 及 正在 开发 的 
Rust 和 Perl 6。 因 此 可 以 说 ， 性 状 是 目前 的 趋势 。 


Ruby 对 多 重 继 承 的 态度 很 明确 : 对 其 不 支持 ， 但 是 引入 了 混入 。Ruby 类 的 定义 体 中 
可 以 包含 模块 ， 这 样 模块 中 定义 的 方法 就 变 成 了 类 实现 的 一 部 分 。 这 是 “纯粹 ”的 混 
入 ， 不 涉及 继承 ， 因 此 Ruby 混入 显然 不 会 影响 所 在 类 的 类 型 。 这 种 方式 凸显 了 混入 
的 优点 ， 避 免 了 很 多 常见 问题 。 


最 近 广 受 瞩 目的 两 门 语 言 Go 和 Julia 一 一 对 继承 的 支持 极其 有 限 。Go 完全 不 文 
持 继承 ， 但 是 它 实 现 的 接口 与 静态 鸭子 类 型 相似 《详情 参见 第 11 章 的 “杂谈 ”) o 
Julia 回避 “类 ”(class) 这 个 术语 ， 只 接受 “类 型 ”(type) . Julia 有 类 型 层次 结构 ， 但 
是 子 类 型 不 能 继承 结构 ， 只 能 继承 行为 ， 而 且 只 能 为 抽象 类 型 创建 子 类 型 。 此 外 ， 












































































































































































































































































































































Julia 的 方法 使 用 多 重 分 派 ， 这 是 7.8.2 节 所 述 机 制 的 高 级 形式 。 





第 13 章 ”正确 重 载运 算 符 


有 些 事情 让 我 不 安 ， 比 如 运算 符 重 载 。 我 决定 不 文 持 运算 符 重 载 ， 这 完全 是 个 人 选 
择 ， 因 为 我 见 过 太 多 CH 程序 员 滥用 它 。1 











James Gosling 
Java 之 父 





1 摘自 “The C Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, and James Gosling’ —3¢ 
Chttp//www.gotw.ca/publications/c_family interview.htm) 。 





ISAT INTE ELLA Pe MM REA PRS CU + 和 |) 或 一 元 运算 符 〈 如 - 
和 ~) 。 说 得 宽泛 一 些 ， 在 Python 中 ， 函 数 调用 〈()) 、 属 性 访问 〈《. ) 和 元 素 访问 / 切 
K AED 也 是 运算 符 ， 不 过 本 章 只 讨论 一 元 运算 符 和 中 绥 运 算 符 。 











在 1.2.1 节 ， 我 们 为 Vector 类 简略 实现 了 几 个 运算 符 。 示 例 1-2 中 的 _ add_ A 
_ mul ”方法 是 为 了 展示 如 何 使 用 特殊 方法 重 载运 算 符 ， 不 过 有 些小 问题 被 我 们 忽视 
了 。 此 外 ， 在 示例 9-2 中 ， 我 们 定义 的 Vector2d._eq ”方法 认为 Vector(3，4) == 
[3，4] ÆA (True) ， 这 可 能 并 不 合理 。 本 章 会 解决 这 些 问 题 。 
在 接 下 来 的 几 节 ， 我 们 将 讨论 : 

e Python 如 何 处 理 中 级 运算 符 中 不 同类 型 的 操作 数 

。 使 用 鸭子 类 型 或 显 式 类 型 检查 处 理 不 同类 型 的 操作 数 


。 中 绥 运 算 符 如 何 表 明 自 己 无 法 处 理 操作 数 





















































。 众 多 比较 运算 符 〈 如 ==、>、<=， 等 等 ) 的 特殊 行为 

















。 增 量 赋值 运算 符 〈 如 +=) 的 默认 处 理 方式 和 重 载 方式 








13.1 运算 符 重 载 基 础 
在 某 些 圈子 中 ， 运 算 符 重 载 的 名 声 并 不 好 。 这 个 语言 特性 可 能 (已经) 被 滥用 ， 让 程序 员 
困惑 ， 导 致 缺陷 和 意料 之 外 的 性 能 瓶颈 。 但 是 ， 如 果 使 用 得 当 ，API 会 变 得 好 用 ， 代 码 会 
变 得 易于 阅读 。Python 施加 了 一 些 限制 ， 做 好 了 灵活 性 、 可 用 性 和 安全 性 方面 的 平衡 : 

。 不 能 重 载 内 置 类 型 的 运算 符 

。 不 能 新 建 运算 符 ， 只 能 重 载 现 有 的 

。 荣 些 运 算 符 不 能 重 载 一 is、and、or 和 not (不 过 位 运算 符 &、| 和 ~ 可以) 
































第 10 章 已 经 为 Vector 定义 了 一 个 中 缀 运算 符 ， 即 ==, MAI eg 方法 支 
持 。 本 章 将 改进 _eq__ 方 法 的 实现 ， 更 好 地 处 理 不 是 vector 实例 的 操作 数 。 然 而 ， 在 
运算 符 重 载 方面 ， 众 多 比较 运算 符 (==、!=、>、<、>=、<=) 是 特例 ， 因 此 我 们 首先 将 
在 Vector 中 重 载 四 个 算术 运算 符 ， 一 元 运算 符 - 和 +， 以 及 中 缀 运算 符 + 和 *。 


先 从 最 简单 的 入 手 : 一 元 运算 符 。 






































ee Ae 
13.2 一 元 运算 符 
在 Python 语言 参考 手册 中 ,，“6.5. Unary arithmetic and bitwise operations” 一 节 


2 Chttps://docs.python.org/3/reference/expressions.html#unary-arithmetic-and-bitwise- 
operations) 列 出 了 三 个 一 元 运算 符 。 下 面 是 这 三 个 运算 符 和 对 应 的 特殊 方法 。 








? 现 有 版 本 是 6.6 节 ， 而 不 是 6.5 节 。 一 一 编者 注 








-( neg ) 
一 元 取 负 算术 运算 符 。 如 果 x 是 -2， 那么 -X == o 
+( pos ) 


一 元 取 正 算术 运算 符 。 通 常 ，x == +x， 但 也 有 一 些 例外 。 如 果 好 奇 ， 请 阅读 “x 和 
+x 何 时 不 相等 "附注 栏 。 





~ (__invert__) 
对 整数 按 位 取 反 ， 定 义 为 ~x == -(x+1). WRx 2, MA ~x == -3。 


Python 语言 参考 手册 中 的 “Data Model” 一 章 
(https://docs.python.org/3/reference/datamodel.html#object， neg ) 还 把 内 置 的 abs(...) 
函数 列 为 一 元 运算 符 。 它 对 应 的 特殊 方法 是 __abs__， 从 1.2.1 节 起 已 经 见 过 多 次 。 


文 持 一 元 运算 符 很 简单 ， 只 需 实现 相应 的 特殊 方法 。 这 些 特殊 方法 只 有 一 个 参 
数 ，self。 然 后 ， 使 用 符合 所 在 类 的 逻辑 实现 。 不 过 ， 要 遵守 运算 符 的 一 个 基本 规则 : 
始终 返回 一 个 新 对 象 。 也 就 是 说 ， 不 能 修改 self， 要 创建 并 返回 合适 类 型 的 新 实例 。 


对 - 和 + 来 说 ， 结 果 可 能 是 与 self 同属 一 类 的 实例 。 多 数 时 候 ，+ 最 好 返回 self 的 副 
Æ. abs(...) 的 结果 应 该 是 一 个 标量 。 但 是 对 ~ 来 说 ， 很 难说 什么 结果 是 合理 的 ， 因 为 
可 能 不 是 处 理 整 数 的 位 ， 例 如 在 ORM 中 ，SQL WHERE 子 句 应 该 返回 反 集 。 


如 前 所 述 ， 我 们 将 为 第 10 章 定 义 的 Vector 类 实现 几 个 新 运算 符 。 示 例 13-1 列 出 了 示例 
10-16 实现 的 _ abs _ 方法 ， 以 及 新 增加 的 ”neg 和 ”pos 一 元 运算 符 方法 。 














































































































示例 13-1 vector_v6.py: 把 一 元 运算 符 - 和 + 添加 到 示例 10-16 中 
def abs (self): 


return math.sqrt(sum(x * x for x in self)) 


def _neg_ (self): 
return Vector(-x for x in self) @ 


def _pos (self): 
return Vector(self) @ 








@@ 为 了 计算 -v， 构 建 一 个 新 Vector 实例 ， 把 self 的 每 个 分 量 都 取 反 。 
@ 为 了 计算 +v， 构 建 一 个 新 Vector 实例 ， 传 入 self 的 各 个 分 量 。 


还 记得 吗 ? Vector 实例 是 可 迭代 的 对 象 ， 而 且 Vector. init ”的 参数 是 一 个 可 迭代 
对 象 ， 因 此 neg ”和 ”pos _ 的 实现 短小 精 悍 。 


我 们 不 打算 实现 invert TŽ, peel PFE Vector 实例 上 尝试 计算 ~v, Python 
会 抛 出 TypeError， 而 且 输 出 明确 的 错误 消息 ，“bad operand type for unary ~: 
'Vector'”, 


述 附 注 栏 讨论 一 个 奇怪 的 问题 ， 能 增长 你 的 + 一 元 运算 符 知 识 。 接 下 来 的 重要 话题 
: 重 载 向 量 加 法 运算 符 +( 见 13.3 节 ) 。 


x 和 +x 何 时 不 相等 


每 个 人 都 觉得 == +x, MAZE Python 中 ， 几 乎 所 有 情况 下 都 是 这 样 。 但 是 ， 我 在 
标准 库 中 找到 两 例 x != +x 的 情况 。 

一 例 与 decimal.Decimal 类 有 关 。 如 果 x Æ Decimal 实例 ， 在 算术 运算 的 上 下 
文中 创建 ， 然 后 在 不 同 的 上 下 文中 计算 +x， 那 么 x t= +x。 例 如 ，x 所 在 的 上 下 文 
使 用 某 个 精度 ， 而 计算 +x 时 ， 精 度 变 了 ， 如 示例 13-2 所 示 。 


示例 13-2 算术 运算 上 下 文 的 精度 变化 可 能 导致 x 不 等 于 +x 
















































































>>> import decimal 

>>> ctx = decimal.getcontext() © 

>>> ctx.prec = 40 

>>> one_third = decimal.Decimal('1') / decimal.Decimal('3') © 
>>> one_third 

Decimal ('@.3333333333333333333333333333333333333333') 
>>> one_third == +one_third 

True 

>>> ctx.prec = 28 © 

>>> one_third == tone third @ 

False 

>>> +one third O 

Decimal ('@.3333333333333333333333333333') 


@ 获取 当前 全 局 算术 运算 的 上 下 文 引 用 。 
O 把 算术 运算 上 下 文 的 精度 设 为 40。 

O 使 用 当前 精度 计算 1/3。 

@@ 查看 结果 ， 小 数 点 后 有 40 个 数字 。 

@ one_third == +one_third 返回 True. 


O 把 精度 降低 为 28， 这 是 Python 3.4 为 Decimal 算术 运算 设 定 的 默认 精度 。 


























@ IÆ, one_third == +one_third 返回 False. 
@ 查看 tone_third， 小 数 点 后 有 28 个 数字 。 


虽然 每 个 fone_third 表达 式 都 会 使 用 one_third 的 值 创建 一 个 新 Decimal 实例 ， 
但 是 会 使 用 当前 算术 运算 上 下 文 的 精度 。 


x l= +x 的 第 二 例 在 collections.Counter 的 文档 中 

Chttps://docs.python.org/3/librarycollections.html#collections.Counter ) > Counter 类 实 
现 了 几 个 算术 运算 符 ， 例 如 中 绥 运 算 符 +， 作 用 是 把 两 个 Counter 实例 的 计数 器 加 
在 一 起 。 然 而 ， 从 实用 角度 出 发 ， 相 加 时 ， 负 值 和 零 值 计数 会 从 结果 中 吻 
除 。 而 一 元 运算 符 + 等 同 于 加 上 一 个 空 Counter， 因 此 它 产生 一 个 新 的 Counter H. 
仅 保 留 大 于 零 的 计数 器 。 见 示例 13- a 


示例 13-3 一 元 运算 符 + 得 到 一 个 新 Counter 实例 ， 但 是 没有 零 值 和 负 值 计 数 
ait 





























>>> ct = Counter('abracadabra' ) 

>>> ct 

Counter({'a': 5, 'r': 2, 'b': 2, 'd': 1, 'c': 1}) 
>>> ct['r'] 


>>> ct['d'] = 6 

>>> ct 

Counter({'a': 5, 'b': 2, 'c': 1, 'd': ©, 'r': -3}) 
>>> +ct 


Counter({'a': 5, 'b': 2, 'c': 1}) 








下 面 回归 正题 。 


3 应 该 在 最 前 面 加 一 行 ， >>> from collections import Counter。 一 一 编者 注 














载 问 量 加 法 运算 符 + 


` Vector 类 是 序列 类 型 ， 按 照 “Data Model” 一 章 中 的 “3.3.6. Emulating container 
types” 一 节 https://docs.python.org/3/reference/datamodel.html#emulating-container- 
types) 所 说 ， 序 列 应 该 文 持 + 运算 符 〈 用 于 拼接 ) ， 以 及 * 运算 符 〈 用 as 
制 ) 。 然 而 ， 我 们 将 使 用 向 量 数学 运算 实现 + 和 *# 运算 符 。 这 么 做 更 难 一 些 ， 但 是 
对 Vector 类 型 来 说 更 有 意义 。 


两 个 欧 几 里 得 问 量 加 在 一 起 得 到 的 是 一 个 新 问 量 ， 它 的 各 个 分 量 是 两 个 向 量 中 相应 的 分 量 
之 和 。 比 如 说 : 





























>>> v1 = Vector([3, 4, 5]) 

>>> v2 = Vector([6, 7, 8]) 

>>> v1 + v2 

Vector([9.0, 11.0, 13.0]) 

>>> v1 + v2 == Vector([3+6, 4+7, 5+8]) 
True 








如 果 尝 试 把 两 个 不 同 长 度 的 Vector 实例 加 在 一 起 会 怎样 ?此 时 可 以 抛 出 错误 ， 但 是 根据 
运用 情况 《例如 信息 检索 ) ， 最 好 使 用 零 填充 较 短 的 那个 向 量 。 我 们 想 要 的 效果 是 这 














>>> v1 = Vector([3, 4, 5, 6]) 
>>> v3 = Vector([1, 2]) 

>>> v1 + v3 

Vector([4.0, 6.0, 5.0, 6.0]) 


























确定 这 些 基 本 的 要 求 之 后 ，_ add_ ”方法 的 实现 短小 精怪 ， 如 示例 13-4 所 示 。 








示例 13-4 Vector. add 方法, 第 1 版 


# 在 Vector 类 中 定义 





def _add_ (self, other): 


pairs = itertools.zip_longest(self, other, fillvalue=0.0) # © 
return Vector(a + b for a, b in pairs) # @ 





Q pairs 是 个 生成 器 ， 它 会 生成 (a，b) 形式 的 元 组 ， 其 中 ake self, bKE 
other. WÈ self 和 other 的 长 度 不 同 ， 使 用 Fillvalue JA BiG HY ABS BIRT 
象 。 


四 构建 一 个 新 Vector 实例 ， 使 用 生成 器 表达 式 计算 pairs 中 各 个 元 素 的 和 。 





注意 ，_add “返回 一 个 新 Vector 实例， 而 没有 影响 self 或 other. 











By 实现 一 元 运算 符 和 中 缀 运算 符 的 特殊 方法 一 定 不 能 修改 操作 数 。 使 用 这 些 运 
算 符 的 表达 式 期 待 结果 是 新 对 象 。 只 有 增 第 一 个 操作 数 
(self) ， 参 见 13.6 节 。 














示例 13-4 中 的 实现 方式 可 以 把 Vector 加 到 Vector2d 上 ， 还 可 以 把 Vector 加 到 元 组 或 
FEAT AE EAE OT ARE, GAN BI 13-5 所 示 。 


示例 13-5 第 1 版 Vector. add 方法 也 支持 Vector 之 外 的 对 象 








>>> v1 = Vector([3, 4, 5]) 

>>> v1 + (10, 20, 30) 

Vector([13.0, 24.0, 35.0]) 

>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 

>>> v1 + v2d 

Vector([4.0, 6.0, 5.0]) 


示例 13-5 中 的 两 个 加 法 都 能 如 我 们 所 期 待 的 那样 计算 ， 这 是 因为 ”add_ _ 使 用 了 
zip_longest(...)， 它 能 处 理 任 何 可 迭代 对 象 ， 而 且 构 建新 Vector 实例 的 生成 器 表达 
式 仅 仅 是 把 zip_longest(...) 生成 的 值 对 相 加 Ca + b) ， 因 此 可 以 使 用 任何 生成 数 
字 元 素 的 可 和 迭代 对 象 。 


然而 ， 如 果 对 调 操作 数 〈 见 示例 13-6) ， 混 合 类 型 的 加 法 就 会 失败 。 


示例 13-6 ”如 果 左 操作 数 是 Vector 之 外 的 对 象 ， 第 一 版 Vector. add _ 方法 无 
法 处 理 












































HE 





>>> v1 = Vector([3, 4, 5]) 
>>> (10, 20, 30) + v1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only concatenate tuple (not "Vector") to tuple 
>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 
>>> v2d + v1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for +: 'Vector2d' and 'Vector' 














= 


对 





为 了 支持 涉及 不 同类 型 的 运算 ， Python 为 中 绥 运 算 符 特殊 方法 提供 了 特殊 的 分 派 机 制 | 。 
表达 式 a + b 来 说 ， 解 释 器 会 执行 以 下 几 步 操作 〈 见 图 13-1) o 


和 add _ 方法， 而 且 返 回 值 不 是 NotImplemented， 调 用 a. add (b)， 
然后 返回 结果 。 


(2) 如 果 a 没有 __add _ 方法 ,或 者 调用 add ”方法 返回 NotImplemented， 检 查 b 
有 没有 __radd 方法， 如 果 有 ， 而 且 没 有 返回 NotImplemented， 调 用 












































a3 


b._radd (a)， 然 后 返回 结果 。 








(3) 如 果 b 没 有 __radd _ 方法 ， 或 者 调用 radd ”方法 返回 NotImplemented， 抛 出 
TypeError， 并 在 错误 消息 中 指明 操作 数 类 型 不 支持 。 





















歼 取 a.__add 获取 b.__radd 
__(b) 的 结果 _(a) 的 结果 






HHH TypeEr ror 











结果 是 
NotImple- 
mented? 


结果 是 
NotImple- 
mented 吗 ? 





13-1: 使 用 _add 和 radd 计算 a + b 的 流程 图 


_radd Æ _add UA” ee 版 本 或 "反问 ” (reversed) 版 本 。 我 喜欢 把 它 
叫 作 “ 反 向 ”特殊 方法 。 Alex、Anna 和 Leo 告诉 我 ， 他 们 喜欢 称 之 
为 “ 右 向 ”(right) 特殊 方法 ， Bat aR PAC EEE ET Ot ”开头 的 单 
i, _ radd_ 和 rsub _ 等 类 似 方法 中 的 ”就 是 这 个 意思 。 


























4 这 两 个 术语 在 Python 文档 中 都 使 用 过 。“Data ModeP' 一 章 Chttpsy/docs.python.org/3/reference/datamodel html) 用 的 
是 “reflected”( 反 射 )， 而 numbers 模块 文档 的 “9.1.2.2. Implementing the arithmetic operations” 二 向 

Chttps//docs. python. org/3/library/numbers.htmi#implementing-the-arithmetic-operations ) 用 的 是 “forward”( 正 向 ) 方法 
Al“reverse” CRM) 方法 。 我 觉得 后 者 更 好 ， 因 为 “ 正 向 ”和 “ 反 向 ”明确 指出 了 方向 ， 而 “反射 "就 没 这 种 效果 。 












































因此 ， 为 了 让 示例 13-6 中 的 混合 类 型 加 法 能 正确 计算 ， 我 们 要 实现 Vector._radd__ 

方法 。 这 是 一 种 后 备 机 制 ， 如 果 左 操作 数 没 有 实现 __add_ 方 法， 或 者 实现 了 ， 但 是 返 
回 NotImplemented 表明 它 不 知道 如 何 处 理 右 操作 数 ， 那 么 Python 会 调用 radd__ 77 
法 。 





Be 别 把 NotImplemented 和 NotImplementedError 搞 混 了 。 前 者 是 特殊 的 单 
例 值 ， 如 果 中 级 运算 符 特殊 方法 不 能 处 理 给 定 的 操作 数 ， 那 么 要 把 它 返回 
(return) 给 解释 器 。 de 种 异常 ， 抽 象 类 中 的 占 位 方 
法 把 它 扫 出 (raise) , ETADI m 























最 简 可 用 的 __radd “实现 如 示例 13-7 所 示 。 





示例 13-7 Vector. add 和 radd 方法 


# 在 Vector 类 中 定义 


def _add (self, other): # © 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
return Vector(a + b for a, b in pairs) 


def _radd (self, other): #@ 
return self + other 














@ add 方法 与 示例 13-4 中 一 样 ， 没 有 变化 ， 这 里 列 出 ， 是 因为 _radd _ 要 用 它 。 
@_radd_ 直接 委托 add 。 


_radd_ 通常 就 这 么 简单 :直接 调用 适当 的 运算 符 ， 在 这 里 就 是 委托 add. EPH 
交换 的 运算 符 都 能 这 么 做 。 处 理 数字 和 向 量 时 ，+ 可 以 交换 ， 但 是 拼接 序列 时 不 行 。 


示例 13-4 中 的 方法 可 以 处 理 Vector 对 象 或 任何 具有 数值 元 素 的 可 和 迭代 对 象 ， 例 如 
Vector2d 实例 、 整 数 元 组 或 浮 点 数 数组 。 但 是 ， 如 果 提 供 的 对 象 不 可 迭代 ， 那 么 
add _ 就 无 法 处 理 ， 而 且 提 供 的 错误 消息 不 是 很 有 用 ， 如 示例 13-8 所 示 。 


示例 13-8 Vector. add _ 方法 的 操作 数 要 是 可 过 代 对 象 





-> 
















































































>>> vl + 1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "vector_v6.py", line 328, in _add_ 
pairs = itertools.zip_longest(self, other, fillvalue=0.0) 
TypeError: zip longest argument #2 must support iteration 

















如 果 一 个 操作 数 是 可 迭代 对 象 ， 但 是 它 的 元 素 不 能 与 Vector 中 的 浮 点 数 元 素 相 加 ， 给 出 
的 消息 也 没什么 用 。 如 示例 13-9 所 示 。 


示例 13-9 Vector. add 方法 的 操作 数 应 是 可 迭代 的 数值 对 象 








>>> v1 + 'ABC' 
Traceback (most recent call last): 
File "<stdin>", an 1, in <module> 
File "vector_v6.py", line 329, in _add_ 
return Vector(a + b for a, b in pairs) 


File "vector_v6.py", line 243, in _init__ 
self._components = array(self.typecode, components) 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) 
TypeError: unsupported operand type(s) for +: 'float' and 'str' 

















示例 13-8 和 示例 13-9 45 E2 HI M pel CC REE ETB AE RA A es 如 果 由 于 类 型 不 兼容 而 导 
致 运算 符 特 殊 方 法 无 法 返回 有 效 的 结果 ， 那 么 应 该 返回 NotImplemented， 而 不 是 抛 出 
TypeError。 返 回 NotImplemented 时 ， 另 一 个 操作 数 所 属 的 类 型 还 有 机 会 执行 运算 ， 
即 Python 会 尝试 调用 反 辐 方法 。 


为 了 遵守 鸭子 类 型 精神 ， 我 们 不 能 测试 other 操作 数 的 类 型 ， 或 者 它 的 元 素 的 类 型 。 我 
们 要 捕获 异常 ， 然 后 返回 NotImplemented。 如 果 解 释 器 还 未 反 转 操作 数 ， 那 么 它 将 尝试 
去 做 。 如 果 反 向 方法 返回 NotImplemented， 那 么 Python 会 抛 出 TypeError， 并 返回 一 
个 标准 的 错误 消息 ， 例 如 “unsupported operand type(s) for +: Vector and 
str”. 



































示例 13-10 是 实现 Vector 加 法 的 特殊 方法 的 最 终 版 。 





示例 13-10 vector_v6.py: + 运算 符 方法 ， 添 加 到 vector_v5.py (ILIR 10-16) 中 


def add (self, other): 
try: 
pairs = itertools.zip longest(self, other, fillvalue=0.0) 
return Vector(a + b for a, b in pairs) 
except TypeError: 
return NotImplemented 


def _ radd_ (self, other): 
return self + other 

















Pex 如 果 中 组 运算 符 方法 抛 出 异常 ， 就 终止 了 运算 符 分 派 机 制 。 对 TypeError 
来 说 ， 通 常 最 好 将 其 捕获 ， 然 后 返回 NotImplemented。 这 样 ， 解 释 器 会 尝试 调用 反 
向 运算 符 方法 ， 如 果 操 作 数 是 不 同 的 类 型 ， 对 调 之 后 ， 反 向 运算 符 方法 可 能 会 正确 计 
算 。 


至 此 ， 我 们 编写 了 add 和 radd _ 方法 ， 安 全 重 载 了 + 运算 符 。 接 下 来 实现 另 一 
个 中 组 运算 符 : *。 


























13.4 重 载 标量 乘法 运算 符 * 


Vector([1，2，3]) * x 是 什么 意思 ? WER x 是 数字 ， 就 是 计算 标量 积 (scalar 
product) ， 结 果 是 一 个 新 Vector 实例 ， 各 个 分 量 都 会 乘 以 x 一 一 这 也 叫 元 素 级 乘法 
Celementwise multiplication) 。 





>>> v1 = Vector([1, 2, 3]) 
>>> v1 * 10 
Vector([10.@, 20.0, 30.@]) 


>>> 11 * v1 
Vector([11.0, 22.0, 33.0]) 





涉及 Vector 操作 数 的 积 还 有 一 种 ， 叫 两 个 向 量 的 点 积 〈dot product) ; 如 果 把 一 个 向 量 
看 作 1xN 秆 了 泗 ， 把 另 一 个 向 量 看 作 Nxl 窍 阵 ， 那 么 就 是 矩阵 乘法 。NumPy 等 库 目 前 的 做 
法 是 ， 不 重 载 这 两 种 意义 的 *， 只 用 * 计算 标量 积 。 例 如 ， 在 NumPy 中 ， 点 积 使 用 


numpy.dot() 函数 计算 。s 


























5 从 Python 3.5 起 ，@ 记号 可 以 用 作 中 缀 点 积 运算 符 。 详 情 参见 "Python 3.5 新 引入 的 中 绥 运 算 符 @” 附 注 栏 。 











回 到 标量 积 的 话题 。 我 们 依然 先 实现 最 简 可 用 的 __mul__ 和 __rmul_ 方 法: 


# 在 Vector 类 中 定义 





def mul (self, scalar): 
return Vector(n * scalar for n in self) 


def _rmul (self, scalar): 
return self * scalar 





























这 两 个 方法 确实 可 用 ， 但 是 提供 不 兼容 的 操作 数 时 会 出 问题 。scalar 参数 的 值 要 是 数 
字 ， 与 浮 点 数 相 乘 得 到 的 积 是 另 一 个 浮 点数 〈 因 为 Vector 类 在 内 部 使 用 浮 点 数 数组 ) 。 
因此 ， 不 能 使 用 复数 ， 但 可 以 是 int. bool (int 的 子 类 ) ， 甚 至 


三 | 
4 


fractions.Fraction 实例 等 标量 。 


我 们 可 以 像 示例 13-10 那样 ， 采 用 鸭子 类 型 技术 , 在 mul ”方法 中 捕获 TypeError。 
但 是 ， 这 个 问题 有 个 更 易于 理解 的 方式 ， 而 且 也 更 合理 : ARRAY. BORED 
isinstance() 检查 scalar 的 类 型 ， 但 是 不 硬 编码 具体 的 类 型 ， 而 是 检查 

numbers . Real 抽象 基 类 。 这 个 抽象 基 类 涵盖 了 我 们 所 需 的 全 部 类 型 ， 而 且 还 支持 以 后 声 
明 为 numbers .Real 抽象 基 类 的 真实 子 类 或 虚拟 子 类 的 数值 类 型 。 示 例 13-11 展示 了 白 
笋 类 型 的 实际 运用 显 式 检查 抽象 类 型 。 完 整 的 代码 清单 参见 本 书 的 代码 仓库 。 





























ca 


























on 你 可 能 还 记得 11.6 Witt, decimal.Decimal 没有 把 自己 注册 为 
numbers.Real 的 虚拟 子 类 。 因 此 ，Vector 类 不 会 处 理 decimal.Decimal 数字 。 























示例 13-11 vector v7.py: 增加 * 运算 符 方法 





from array import array 
import reprlib 

import math 

import functools 

import operator 

import itertools 

import numbers # @ 


class Vector: 
typecode = ‘d' 


def _ init__(self, components): 
self._components = array(self.typecode, components) 











# 排版 需要 ， 省 略 了 很 多 方法 
# 参见 https: //github.com/fluentpython/example-code 中 的 vector_v7.py 














def mul (self, scalar): 
if isinstance(scalar, numbers.Real): #@ 
return Vector(n * scalar for n in self) 
else: #60 
return NotImplemented 


def _rmul_ (self, scalar): 
return self * scalar # @ 





@ 为 了 检查 类 型 ， 导 入 numbers 模块 。 


@ 如 果 scalar 是 numbers.Real 某 个 子 类 的 实例 ， 用 分 量 的 乘积 创 如 
例 。 


H a 返回 NotImplemented, iE Python 尝试 在 scalar 操作 数 上 调用 __rmul_ 方 





一 个 新 Vector SE 


oe 








r 








OZE, rmul _ 方法 只 需 执行 self * scalar, RHA mul_ D. 


有 了 示例 13-11 中 的 代码 之 后 ， 我 们 可 以 拿 Vector 实例 乘 以 常规 的 标量 值 和 不 那么 寻 家 
的 数字 类 型 了 : 








i 




















>>> v1 = Vector([1.0, 2.0, 3.0]) 

>>> 14 * v1 

Vector ([14.0, 28.0, 42.0]) 

>>> v1 * True 

Vector([1.0, 2.0, 3.0]) 

>>> from fractions import Fraction 

>>> v1 * Fraction(1, 3) 

Vector ( [0. 3333333333333333, @.6666666666666666, 1.0]) 











通过 实现 + 和 *, dD a Re 
中 列 出 的 所 有 运算 符 都 适用 《就 地 运算 符 在 13.6 节 讨 论 





























































































































表 13-1: 中 绥 运 算 符 方法 的 名 称 〈 就 地 运算 符 用 于 增 量 赋值 ， 比 较 运 算 符 在 表 13-2 
中 ) 
运算 符 正 向 方法 反 向 方法 就 地 方法 i 
+ __add 
__sub 
* mul 
/ truediv rtruediv itruediv 
// floordiv rfloordiv___|__ifloordiv__ 
% __mod__ 
divmod() divmod rdivmod idivmod i 整除 的 商 和 模 数组 成 的 元 组 
**, pow() | 一 pow _ 
@ matmul rmatmul imatmul 
& __and 
LORS. 
^ xor 
<< lshift rlshift ilshift 按 位 左 移 
>> rshift rrshift irshift 按 位 右 移 



































* pow 的 第 三 个 参数 modulo 是 可 选 的 : pow(a，b，modulo)， 直 接 调用 特殊 方法 时 也 支持 这 个 参数 〈 如 
a.__pow_ (b, modulo)) 。 














# Python 3.5 新 引入 的 。 


人 但 是 规则 稍 有 不 同 。 我 们 将 在 下 一 节 讨论 众多 比较 
运算 符 。 


下 述 附注 栏 介绍 了 Python 3.5 (写作 本 书 时 尚未 发 布 6) 引入 的 @ 运 算 符 ， 选 读 。 


6 现 已 发 布 。 一 一 编者 注 

















Python 3.5 新 引入 的 中 级 运算 符 @ 


Python 3.4 没有 为 点 积 提供 中 缀 运算 符 。 不 过 ， 写 作 本 书 时 ，Python 3.5 的 pre-alpha 
版 实现 了 “PEP 465 — A dedicated infix operator for matrix 

multiplication” Chttps://www.python.org/dev/peps/pep-0465/) ， 提 供 了 点 积 所 需 的 @ 记 
号 〈 例 如 ，a @ b 是 a 和 b 的 点 积 ) 。@ 运算 符 由 特殊 方法 

—_matmul__. rmatmul 和 imatmul _ 提供 支持 ， 名 称 取 自 “matrix 
multiplication” CERERA) 。 目 前 ， 标 准 库 还 没 用 到 这 些 方法 ， 但 是 Python 3.5 的 解 
释 器 能 识别 ， 因 此 NumPy 团队 《以 及 我 们 自己 ) 可 以 在 用 户 定 义 的 类 型 中 支持 @ 运 
算 符 。Python 解析 器 也 做 了 修改 ， 能 处 理 中 绥 运 算 符 @ (在 Python3.4 中 ，a @ b 是 
一 种 句法 错误 ) 。 


为 了 体验 一 下 ， 我 从 源码 编译 了 Python 3.5， 然 后 为 Vector 实现 了 点 积 运算 符 @， 还 
做 了 测试 。 


下 面 是 我 做 的 最 简单 的 测试 : 













































































>>> va = Vector([1, 2, 3]) 

>>> vz = Vector([5, 6, 7]) 

>>> va @ vz == 38.0 # 1*5 + 2*6 + 3*7 
True 

>>> [10, 20, 30] @ vz 

380.0 

>>> va @ 3 

Traceback (most recent call last): 


TypeError: unsupported operand type(s) for @: 'Vector' and ‘int' 











下 面 是 相应 特殊 方法 的 代码 : 





class Vector: 


# 排版 需要 ， 省 略 了 很 多 方法 











def matmul (self, other): 
try: 
return sum(a * b for a, b in zip(self, other)) 
except TypeError: 
return NotImplemented 


def rmatmul (self, other): 
return self @ other 








完整 的 源码 在 本 书 代 码 仓库 Chttps://github.com/fluentpython/example-code) 里 的 
vector py3_$.py 文件 中 。 











记得 要 在 Python 3.5 中 测试 ， 否 则 会 导致 SyntaxError ! 


13.5 ”众多 比较 运 


Python 解释 器 对 众多 比较 运 


两 个 方面 有 重大 区 别 。 





算 符 
算 符 








(==、!=、>、<、>=、<=) 的 处 理 与 前 文 类 似 ， 不 过 在 











。 正 向 和 反 向 调用 使 用 的 是 同一 系列 方法 。 这 方面 的 规则 如 表 13-2 所 示 。 例 如 ， 对 == 
来 说 ， 正 向 和 反 向 调用 都 是 __eq__ 方 法， 只 是 把 参数 对 调 了 ; 而 正 向 的 __gt_ 方 





法 调用 的 是 反 向 的 


e Xf == 和 1= 来 说 ， 如 果 反 同调 用 失败 ，Python 会 


TypeError. 


413-2: 众多 比较 运算 符 : 正 同方 法 i 


_ lt _ 








方法 ， 并 把 参数 对 调 。 





返回 NotImplemented 的 话 ， 调 用 反 向 方法 


会 比较 对 象 的 ID， 而 不 抛 出 












































id(a) == id(b) 














net (a == b) 





出 TypeError 





b. gt _(a) 


出 TypeError 


出 TypeError 








` Python 3 的 新 行为 


Python 2 之 后 的 比较 运算 符 后 备 机 制 都 变 了 。 对 于 





b. ge (a) 














HT ypeError 





_ ne _， 现 在 Python 3 返回 结果 


是 对 eq _ 结果 的 取 反 。 对 于 排序 比较 运算 符 ，Python 3 JAH TypeError， 并 把 错 


误 消息 设 为 'unorderable types: 


int() < tuple()'。 在 Python2 中 ， 这 些 比较 


的 结果 很 怪异 ， 会 考虑 对 象 的 类 型 和 ID， 而 且 无 规律 可 循 。 然 而 ， 比 较 整 数 和 元 组 























vector_v5.py 中 是 这 样 定 义 的 : 





确实 没有 意义 ， 因 此 此 时 抛 出 TypeError 是 这 门 语言 的 一 大 进步 。 
了 解 这 些 规则 之 后 ， 我 们 来 分 析 并 改进 Vector. eq__ 








方法 的 行为 。 这 个 方法 在 


class Vector: 


# 省 略 了 很 多 行 




















def _eq_ (self, other): 
return (len(self) == len(other) and 
all(a == b for a, b in zip(self, other))) 








这 个 方法 的 行为 如 示例 13-12 所 示 。 
示例 13-12 Vector 实例 与 Vector 实例 、Vector2d 实例 和 元 组 比较 


>>> va = Vector([1.0, 2.0, 3.0]) 

>>> vb = Vector(range(1, 4)) 

>>> va == vb #@ 

True 

>>> vc = Vector([1, 2]) 

>>> from vector2d_v3 import Vector2d 


>>> v2d = Vector2d(1, 2) 
>>> vc == v2d # @ 

True 

>>> t3 = (1, 2, 3) 

>> va == t3 #0 


True 





@ 两 个 具有 相同 数值 分 量 的 Vector 实例 是 相等 的 。 








四 如 果 Vector 实例 的 分 量 与 Vector2d 实例 的 分 量 都 相等 ， 那 么 两 个 实例 相等 。7 























7 实际 运行 时 会 抛 出 异常 : Typee trons object of type 'Vector2d' has no len()， 因 为 Vector2d 没有 实现 





_len _ 特殊 方法 。 如 果 改 为 vc == set(v2d) 就 会 返回 True。 一 一 编者 注 











O Vector 实例 的 分 量 与 元 组 或 其 他 任何 可 迭代 对 象 的 元 素 相等 ， 那 么 对 象 也 相等 。 





























示例 13-12 中 的 最 后 一 To RIR DE, 我 对 这 一 点 没有 强制 规则 ， 要 上 由 








过 








MRE. A, “Python 之 禅 ” 说 道 
如 果 存 在 多 种 可 能 ， 不 要 猜测 。 
对 操作 数 过 度 宽容 可 能 导致 令 人 惊讶 的 结果 ， 而 程序 员 讨 大 惊喜 

















从 Python 自身 来 找 线索 ， 我 们 发 现 [1,2] == (1，2) 的 结果 是 False。 因 此 ， 我 们 要 保 














应 用 上 下 











守 一 点 ， 做 些 类 型 检查 。 如 果 第 一 个 操作 数 是 Vector 实例 (或 者 Vector 子 类 的 实 






































理 。 参 见 示例 13-13。 





示例 13-13 vector_v8.py: 改进 Vector 类 的 _ eq__ 方 法 


Bl) ， 那 么 就 使 用 _ eq _ 方法 的 当前 逻辑 。 否 则 ， 返 回 NotImplemented， 让 Python 处 





def eq _ (self, other): 
if isinstance(other, Vector): © 
return (len(self) == len(other) and 








all(a == b for a, b in zip(self, other))) 
else: 
return NotImplemented @ 





比 


TTT 


@ 如 果 other 操作 数 是 Vector 实例 (或 者 Vector 子 类 的 实例 ) , MKA Z RAA 


较 。 








四 否则 ， 返 回 NotImplemented. 











如 果 使 用 示例 13-13 中 的 新 版 Vector. eq _ 方法 运行 示例 13-12 中 的 测试 ， 得 到 的 结 
果 如 示例 13-14 所 示 。 


示例 13-14 与 示例 13-12 一 样 的 测试 : 最 后 一 个 结果 变 了 








>>> va = Vector([1.0, 2.0, 3.0]) 
>>> vb = Vector(range(1, 4)) 

>>> va == vb #0 

True 

>>> vc = Vector([1, 2]) 

>>> from vector2d_v3 import Vector2d 
>>> v2d = Vector2d(1, 2) 

>>> ve == vad #@ 

True 

>>> t3 = (1, 2, 3) 

>>> va == t3 #0 

False 








@ 结果 与 之 前 一 样 ， 与 预期 相符 。 


O 结果 与 之 前 一 样 ， 但 是 为 什么 呢 ? 稍 后 解释 。8 


























3 这 次 不 抛 出 异常 ， 而 是 返回 True。 请 参阅 前 一 个 编者 注 。 一 一 编者 注 




















O 结果 不 同 了 ， 这 才 是 我 们 想 要 的 。 但 是 为 什么 会 这 样 ? WE FR... 

在 示例 13-14 中 的 三 个 结果 里 ， 第 一 个 没 变 ， 但 是 后 两 个 变 了 ， 这 是 因为 示例 13-13 中 的 
_ eq ”方法 返回 了 NotImplemented. Vector 实例 与 Vector2d 实例 比较 时 ， 有 具体 步骤 
如 下 。 


() 为 了 计算 vc == v2d, Python 调用 Vector.__eq__(vc, v2d). 


























(2) 4 Vector.__eq__(vc, v2d) 确认 ，v2d 不 是 Vector 实例 ， 因 此 返回 
NotImplemented. 














(3) Python 得 到 NotImplemented R, Ziti} Vector2d.__eq__(v2d, vc). 


(4) Vector2d.__eq__(v2d, vc) 把 两 个 操作 数 都 变 成 元 组 ， 然 后 比较 ， 结 果 是 
True (Vector2d. eq _ 方法 的 代码 在 示例 9-9 中 ) 。 











在 示例 13-14 F, Vector 实例 和 元 组 比较 时 ， 有 具体 步骤 如 下 。 


(1) 为 了 计算 va == t3, Python jd Vector. eq _ (va, t3). 











(2) 经 Vector. eq (va, t3) 确认 ，t3 不 是 Vector 实例， 因此 返回 
NotImplemented. 





(3) Python 得 到 NotImplemented 结果 ， 尝 试 调用 tuple.__eq_ (t3, va). 
(4) tuple. eq _(t3, va) 不 知道 Vector 是 什么 ， 因 此 返回 NotImplemented. 


(5) 对 == 来 说 ， 如 果 反 向 调用 返回 NotImplemented, Python 会 比较 对 象 的 ID， 作 最 后 
H. 


那么 != 运算 符 呢 ? 我 们 不 用 实现 它 ， 因 为 从 object 继承 的 __ne__ 方法 的 后 备 行为 满 
足 了 我 们 的 需求 : 定义 了 eq ”方法 ， 而 且 它 不 返回 NotImplemented， ne _ 会 对 
_ eq 返回 的 结果 取 反 。 


也 就 是 说 ， 对 示例 13-14 中 的 对 象 来 说 ， 使 用 != 运算 符 比较 的 结果 是 一 致 的 : 
































>>> va != vb 

False 

>>> ve != v2d 

False 

>>> va != (1, 2, 3) 
True 











ae PARAKEY ne 方法， 运作 方式 与 下 述 代码 类 似 ， 不 过 原版 是 用 C 语言 实现 
他: 








90bject. eq 和 object. ne ”的 轴 辑 在 object_richcompare 函数 中 ， 位 于 CPython 源码 的 Objects/typeobject.c 
XF Chttps//hg.python.org/cpython/file/c0e311e010fc/Objects/typeobject.c) 中。 











def _ne_ (self, other): 
eq_result = self == other 
if eq_result is NotImplemented: 
return NotImplemented 
else: 
return not eq_result 


By Python 3 文档 的 缺陷 1 


写作 本 书 时 ， 众 多 比较 方法 的 文档 (https://docs.python.org/3/reference/datamodel. 
html) 说 : “x==y 成 立 不 代表 x1=y 不 成 立 。 据 此 ， 如 果 定 义 _eq__() 方法 ， 也 要 
定义 _ne_() 方法 ， 这 样 运算 符 的 行为 才能 符合 预期 。” 对 Python 2 来 说 ， 确 实 是 
这 样 。 但 对 Python 3 而 言 ， 这 不 是 好 的 建议 ， 因 为 从 object 类 继承 的 ”ne _ 实现 
够 用 了 ， 几 乎 不 用 重 载 。Guido 在 他 写 的 “What's New in Python 3.0” 一 文 












































Chttps://docs.python.org/3/whatsnew/3.0.html#operators-and-special-methods) 中 说 明了 
这 个 新 行为 ， 在 “Operators And Special Methods” 一 节 中 。 文 档 的 这 个 缺陷 在 issue 
4395 Chttp://bugs.python.org/issue4395) 中 做 了 记录 。 























| "这 个 缺陷 现在 已 经 修 下 了。 一 一 编者 注 








讨论 完 重要 的 中 绥 运 算 符 重 载 之 后 ， 下 面 换 一 类 运算 符 : 增 量 赋值 运算 符 。 


13.6 ” 增 量 赋值 运算 符 


Vector 类 已 经 支持 增 量 赋值 运算 符 += 和 *= 了 ， 如 示例 13-15 所 示 。 


示例 13-15 ” 增 量 赋值 不 会 修改 不 可 变 目 标 ， 而 是 新 建 实例 ， 然 后 重新 绑 定 

















call 








>>> v1 = Vector([1, 2, 3]) 
>>> vi_alias = v1 # 

>>> id(v1) #@ 
4302860128 

>>> v1 += Vector([4, 5, 6]) #0 
>> v1 # 

Vector([5.0, 7.0, 9.0]) 
>>> id(v1) # 

4302859904 

>>> vi_alias # QO 
Vector([1.0, 2.0, 3.0]) 
>>> v1 *= 11 # 

>> vl #0 

Vector([55.0, 77.0, 99.0]) 
>>> id(v1) 

4302858336 


@ 复制 一 份 ， 供 后 面 审查 Vector([1, 2, 3]) 对 象 。 
O 记 住 一 开始 绑 定 给 v1 的 Vector 实例 的 ID. 

O 增 量 加 法 运算 。 

O 结果 与 预期 相符 .…… 

6 ...... 但 是 创建 了 新 的 Vector 实例 。 

O 审查 v1_alias， 确 认 原 来 的 Vector 实例 没 被 修改 。 

O 增 量 乘法 运算 。 

O 同样 ， 结 果 与 预期 相符 ， 但 是 创建 了 新 的 Vector 实例 。 


如 果 一 个 类 没有 实现 表 13-1 列 出 的 就 地 运算 符 ， 增 量 赋值 运算 符 只 是 语法 糖 : a t= b 的 
作用 与 a = a + b 完全 一 样 。 对 不 可 变 类 型 来 说 ， 这 是 预期 的 行为 ， 而 且 ， 如 果 定 义 了 
__add 方法 的 话 ， 不 用 编写 额外 的 代码 ，+= 就 能 使 用 。 


然而 ， 如 果实 现 了 就 地 运算 符 方法 ,例如 __iadd ， 计算 a += b 的 结果 时 会 调用 就 地 
运算 符 方法 。 这 种 运算 符 的 名 称 表明 ， 它 们 会 就 地 修改 左 操作 数 ， 而 不 会 创建 新 对 象 作为 
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Be 不 可 变 类 型 ， 如 Vector 类 ， 一 定 不 能 实现 就 地 特殊 方法 。 这 是 明显 的 事 
实 ， 不 过 还 是 值得 提出 来 。 


为 了 展示 如 何 实现 就 地 运算 符 ， 我 们 将 扩展 示例 11-12 中 的 BingoCage 类 ， 实 现 
_add 和 iadd 方法 。 


我 们 把 子 类 命名 为 AddableBingoCage。 示 例 13-16 是 我 们 想 让 + 运算 符 具 有 的 行为 。 


示例 13-16 使 用 + 运算 符 新 建 AddableBingoCage 实例 























>>> vowels = 'AEIOU' 

>>> globe = AddableBingoCage(vowels) @ 
>>> globe.inspect() 

(‘A', 'E', 'I', '0', 'U') 

>>> globe.pick() in vowels @ 

True 

>>> len(globe.inspect()) © 

4 

>>> globe2 = AddableBingoCage('XYZ') @ 
>>> globe3 = globe + globe2 

>>> len(globe3.inspect()) © 

7 

>>> void = globe + [10, 20] © 
Traceback (most recent call last): 





TypeError: unsupported operand type(s) for +: 'AddableBingoCage' and 'list' 





@ 使 用 5 个 元 素 (vowels 中 的 各 个 字母 ) 创建 一 个 globe 实例 。 
四 从 中 取出 一 个 元 素 ， 确 认 它 在 vowels 中 。 

© 确认 globe 的 元 素数 量 减少 到 4 个 了 。 

O 创建 第 二 个 实例 ， 它 有 3 个 元 素 。 
O 把 前 两 个 实例 加 在 一 起 ， 创 建 第 3 个 实例 。 这 个 实例 有 7 个 元 素 。 


@ ee ee 实例 无 法 与 列表 相 加 ， 抛 出 TypeError。 那 个 错误 消息 
”add 方法 返回 Not Implemented 时 Python 解释 器 输出 的 。 










































































AddableBingoCage 是 可 变 的 ， 实 现 _ iadd ”方法 后 的 行为 如 示例 13-17 所 示 。 


示例 13-17 可 以 使 用 += 运算 符 载 入 现 有 的 AddableBingoCage 实例 (接续 示例 
13-16) 











>>> globe orig = globe © 
>>> len(globe.inspect()) @ 
4 

>>> globe += globe2 © 

>>> len(globe.inspect()) 


7 

>>> globe += ['M', 'N'] @ 

>>> len(globe.inspect()) 

9 

>>> globe is globe orig © 

True 

>>> globe += 1 QO 

Traceback (most recent call last): 


TypeError: right operand in += must be 'AddableBingoCage' or an iterable 

















@ 复制 一 份 ， 供 后 面 检查 对 象 的 标识 。 

@ 现在 globe 有 4 个 元 素 。 

© AddableBingoCage 实例 可 以 从 同属 一 类 的 其 他 实例 那里 接受 元 素 。 

O += 的 右 操作 数 也 可 以 是 任何 可 迭代 对 象 。 

O 在 这 个 示例 中 ，globe 始终 指 代 globe_orig WR. 

@ AddableBingoCage 实例 不 能 与 非 可 迭代 对 象 相 加 ， 错 误 消 息 会 指明 原因 。 

注意 ， 与 + 相 比 ，+= 运算 符 对 第 二 个 操作 数 更 宽容 。+ 运算 符 的 两 个 操作 数 必须 是 相同 


类 型 (这 里 是 AddableBingoCage) ， 如 若 不 然 ， 结 果 的 类 型 可 能 让 人 摸 不 着 头脑 。 而 
+= 的 情况 更 明确 ， 因 为 就 地 修改 左 操作 数 ， 所 以 结果 的 类 型 是 确定 的 。 





















































~ 通过 观察 内 置 1ist 类 型 的 工作 方式 ， 我 确定 了 要 对 + 和 += 的 行为 做 什么 限 
fill, my_list + x 只 能 用 于 把 两 个 列表 加 到 一 起 ， 而 my_1ist += x 可 以 使 用 右边 
可 迭代 对 象 x 中 的 元 素 扩展 左边 的 列表 。1ist.extend() 的 行为 也 是 这 样 的 ， 它 的 
参数 可 以 是 任何 可 和 迭代 对 象 。 


我 们 明确 了 AddableBingoCage 的 行为 ， 下 面 来 看 实现 方式 ， 如 示例 13-18 所 示 。 














示例 13-18 bingoaddable.py: AddableBingoCage 扩展 BingoCage， 支 持 + 和 += 





import itertools @ 


from tombola import Tombola 
from bingo import BingoCage 


class AddableBingoCage(BingoCage): @ 


def _add_ (self, other): 
if isinstance(other, Tombola): © 
return AddableBingoCage(self.inspect() + other.inspect()) @ 
else: 
return NotImplemented 


def _iadd (self, other): 





if isinstance(other, Tombola): 
other_iterable = other.inspect() © 
else: 
try: 
other_iterable = iter(other) 
except TypeError: © 
self_cls = type(self). name _ 
msg = "right operand in += must be {!r} or an iterable" 
raise TypeError(msg.format(self_cls)) 
self.load(other_iterable) 
return self O 








@ “PEP 8 一 Style Guide for Python Code” (https://www.python.org/dev/peps/pep- 
0008/#imports) 建议 ， 把 导入 标准 库 的 语句 放 在 导入 自己 编写 的 模块 之 前 。 








© AddableBingoCage 扩展 BingoCage。 





全 _ add 方法 的 第 二 个 操作 数 只 能 是 Tombola 实例 。 
O 如 果 other 是 Tombola 实例 ， 从 中 获取 元 素 。 
和 否则， 尝试 使 用 other 创建 迭代 器 。11 




















UYAH iter 函数 在 下 一 章 讨论 。 这 里 ， 本 可 以 使 用 tuple(other)， 这 样 做 是 可 以 的 ， 但 是 .1oad(...) FE 
参数 时 要 构建 大 量 元 组 ， 资 源 消耗 大 。 











@ 如 果 尝试 失败 ， 抛 出 异常 ， 并 且 告知 用 户 该 怎么 做 。 如 果 可 能 ， 错 误 消 息 应 该 明确 指 
导 用 户 怎么 解决 问题 。 


O 如 果 能 执行 到 这 里 ， 把 other_iterable 载 入 self. 
O 重要 提醒 : 增 量 赋值 特殊 方法 必须 返回 self. 


通过 示例 13-18 中 add 和 iadd 返回 结果 的 方式 可 以 总 结 出 就 地 运算 符 的 原 
理 。 












































__add__ 











调用 AddableBingoCage 构造 方法 构建 一 个 新 实例 ， 作 为 结果 返回 。 
_ iadd | 
把 修改 后 的 self 作为 结果 返 


最 后 ， 示 例 13-18 ”中 还 有 一 点 要 注意 ;从 设计 上 看 ，AddableBingoCage 不 用 定义 
__radd__ 方法 ， 因 为 不 需要 。 如 果 右 操作 数 是 相同 类 型 ， 那 么 正 向 方法 _ add__ 会 处 
里 ， 因 此 ，Python 计算 a + b 时， 如 果 a 是 AddableBingoCage 实例 ， 而 b 不 是 ， 那 么 
会 返回 NotImplemented， 此 时 或 许可 以 让 b 所 属 的 类 接手 处 理 。 可 是 ， 如 果 表 达 式 是 b 
+ a， 而 b 不 是 AddableBingoCage 实例 ， 返 回 了 NotImplemented, IRA Python 最 好 
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放弃 ， 抛 出 TypeError， 因 为 无 法 处 理 b。 








~I 一 般 来 说 ， 如 果 中 缀 运算 符 的 正 向 方法 (如 mul ) 只 处 理 与 self 属于 同 
一 类 型 的 操作 数 ， 那 就 无 需 实现 对 应 的 反 向 方法 (如 __rmul__) ， 因 为 按照 定义 ， 
反 向 方法 是 为 了 处 理 类 型 不 同 的 操作 数 。 


我 们 对 Python 运算 符 重 载 的 讨论 到 此 结束 。 























13.7 本 章 小 结 


本 章 首先 说 明了 Python 对 运算 符 重 载 施加 的 一 些 限 
且 限 于 重 载 现 有 的 运算 符 ， 不 过 有 几 个 例外 〈is、and、or、 


随后 ， 本 章 讲解 了 eg ce 元 运算 符 ， 并 实现 了 __ 
中 缀 运算 符 ， 首 先是 +， 它 由 __add “方法 提供 支持 。 



























































fll: 禁止 重 载 内 置 类 型 的 运算 符 ， 而 


o REER 


ER RAAE 


算 符 的 结果 应 该 是 > 对 象 ， HTAR 不 能 修改 操作 数 。 为 了 支持 其 他 类型 ， 我 们 返回 特殊 的 


NotImplemented 值 〈 不 是 异常 ) ， 让 解释 器 党 试 对 调 操作 数 ， 然 后 调用 运算 符 的 反 向 特 
殊 方 法 (如 __radd ) 。 图 13-1 中 的 流程 图 概述 了 Python 处 到 


















































中 绥 运 算 符 的 算法 。 




















如 果 操 作 数 的 类 型 不 同 ， 我 们 要 检测 出 不 能 处 理 的 操作 数 。 本 章 使 用 两 种 方式 处 理 这 个 问 


题 : 一 种 是 鸭子 类 型 ， 直 接 答 试 执行 运算 ， 如 果 有 问题 ， 








捕获 TypeError +i; 








为 一 种 


是 显 式 使 用 isinstance 测试 ， mul ”方法 就 是 这 么 做 的 。 这 两 种 方式 各 有 优 缺 点 : 
聊 子 类 型 更 灵活 ， 但 是 显 式 检查 更 能 预知 结果 。 如 果 选 择 使 用 isinstance， 要 小 心 ， 不 








能 测试 具体 类 ， 而 要 测试 numbers .Real 抽象 基 类 ， 





















































例如 isinstance(scalar， 
numbers.Real)。 这 在 灵活 性 和 安全 性 之 间 做 了 很 好 的 折 中 ， 因 为 当前 或 未 来 由 用 户 定 
义 的 类 型 可 以 声明 为 抽象 基 类 的 真实 子 类 或 虚拟 子 类 ， 详 情 参 见 第 11 章 。 


接 下 来 的 话题 是 众多 比较 运算 符 。 我 们 通过 __eq__ 





方法 实现 了 ==， 而 且 发 现 Python 在 








object 基 类 中 通过  ne_ 方法 为 != 提供 了 便利 的 实现 。 
与 >、<、>= 和 《= 稍 有 不 同 ， 有 具体 而 言 是 选择 反 向 方法 的 逻辑 
别处 理 == 和 != 的 后 备 机 制 : 从 不 抛 出 错误 ， 因 为 Python 会 
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To 











最 后 一 节 专 门 讨 论 了 增 量 赋值 运算 符 。 我 们 发 现 ，Python 处 理 
当 作 常规 的 运算 Pieler Bla += b 其 实 会 当成 a 


























en 处 理 这 些 运算 符 的 方式 
比 外 Python 还 会 特 
会 比较 对 象 的 ID， 作 最 后 一 





























| 符 的 万 式 是 把 它们 
。 这 样 会 始终 


创建 新 对 象 ， 因 此 可 变 类 型 和 不 可 变 类 型 都 能 用 。 对 可 变 对 象 来 说 ， ADL KAARI 








可 变 的 Vector 类 放 到 一 边 ， 为 BingoCage 的 子 类 实现 了 += 运算 符 ， 它 


法 ， 例 如 支持 += 的 __iadd__ 方 法， 然后 修改 左 操 作 数 的 值 。 为 了 举例 说 明 ， 我 们 把 不 














会 把 元 素 添 加 到 


随机 选号 池 中 ， 这 与 内 置 的 1ist 类 型 把 += 当成 list.extend() 方法 的 快捷 方式 类 似 。 
在 实现 的 过 程 中 ， 我 们 得 知 在 可 接受 的 类 型 方面 ，+ 应 该 比 += 严格 。 对 序列 类 型 来 说 ，+ 
通常 要 求 两 个 操作 数 属于 同一 类 型 ， 而 += 的 右 操作 数 往 往 可 以 是 任何 可 迭代 对 象 。 














13.8 延伸 阅读 


在 Python 编程 中 ， 运 算 符 重 载 经 常 使 用 isinstance 做 测试 。 一 般 来 说 ， 库 应 该 利用 动 
态 类 型 〈 提 高 灵活 性 ) ， 避 人 免 显 式 测试 类 型 ， 而 是 直接 尝试 操作 ， 然 后 处 理 异常 ， 这 样 只 
要 对 象 支 持 所 需 的 操作 即 可 ， 而 不 必 一 定 是 某 种 类 型 。 但 是 ，Python 抽象 基 类 人 允许 一 种 更 
为 严格 的 鸭子 类 型 ，Alex Martelli 称 之 为 “ 白 鹅 类 型 *， 编 写 重 载运 算 符 的 代码 时 经 常 能 
到 。 因 此 ， 如 果 你 跳 过 了 第 11 章 ， 一 定 要 去 读 读 。 


运算 符 特殊 方法 的 主要 参考 资料 是 “Data Model” 一 章 
(https://docs.python.org/3/reference/datamodel.html)。 这 是 权威 资料 ， 不 过 如 “Python 3 X 

档 的 缺陷 ”所 述 ， 现 在 有 个 明显 的 缺陷 ，12 即 建议 “如 果 定 义 _eq_() 方法 ， 同 时 也 要 定 

X _ne _() 方 法"。 实 际 上 ， 在 Python 3 中 ， 继 承 自 object 类 的 _ne_ 方法 能 满足 绝 

大 多 数 需 求 ， 因 此 一 般 很 少 实现 ”ne _ 方法 。Python 标准 库 中 numbers 模块 文档 

的 “9.1.2.2. Implementing the arithmetic operations” — “i 
(https://docs.python.org/3/library/numbers.html#implementing-the-arithmetic-operations) 也 值 

得 一 读 。 

































































了 ?这 个 缺陷 现在 已 经 修正 了 。 一 一 编者 注 




















与 之 相关 的 一 个 技术 是 泛 函 数 ， 由 了 Python3 的 @singledispatch 装饰 器 支持 (参见 7.8.2 
节 ) o Æ David Beazley 与 Brian K. Jones 的 著作 《Python Cookbook ($ 3 hig) 中 文 版 》 

H, “9.20 通过 函数 注解 来 实现 方法 重 载 ? 秘 笈 使 用 一 些 高 级 元 编程 〈 涉 及 元 类 ) 通过 函数 
注解 实现 了 基于 类 型 的 分 派 。Martelli、Ravensctoft 与 Ascher 的 《Python Cookbook (第 2 
版 ) 中 文 版 》 一 书 有 个 有 趣 的 诀 罕 (2.13 节 ，Erik Max Francis 提供 ) ， 展 示 了 如 何 重 载 
<< 运算 符 ， 在 Python 中 模仿 C++ 的 iostream 句法 。 这 两 本 书 中 还 有 一 些 其 他 关于 运算 
符 重 载 的 示例 ， 我 只 提 了 两 个 重要 的 诀 宅 。 


functools.total_ordering 函数 是 个 类 装饰 器 (Python 2.7 及 以 上 版 本 可 用 ) ， 它 能 大 
只 定义 了 几 个 比较 运算 符 的 类 自动 生成 全 部 比较 运算 符 。 请 参阅 Functools 模块 的 文档 
Chttps://docs.python.org/3/library/functools.html#functools.total_ ordering) 。 


如 果 你 对 动态 类 型 语言 的 运算 符 方法 分 派 机 制 感 兴趣 ， 推 荐 阅读 两 篇 具有 重大 意义 的 论 
X: Dan Ingalls (Smalltalk 团队 的 创始 成 员 ) 写 的 “A Simple Technique for Handling Multiple 
Polymorphism” Chttps://wiki.illinois.edu//wiki/download/attachments/273416327/ingalls.pdf) ， 
以 及 KurtJ. Hebel 与 Ralph Johnson (Johnson 是 《设计 模式 : 可 复 用 面向 对 象 软件 的 基 
础 》 的 作者 之 一 ， 因 此 出 了 名 ) 合 写 的 “Arithmetic and Double Dispatching in Smalltalk- 

80” Chttps://wiki.illinois.edu//wiki/download/attachments/273416327/double-dispatch.pdf) 。 
这 两 篇 论文 深入 分 析 了 动态 类 型 语言 (如 Smalltalk, Python 和 Ruby) 的 多 态 。 


Python 没有 使 用 这 两 篇 论文 中 所 述 的 双重 分 配 处 理 运 算 符 。Python 使 用 的 正 同 运算 符 和 反 
癌 运 算 符 更 便于 用 户 定义 的 类 支持 双重 分 派 ， 但 是 这 种 方式 需要 解释 器 做 些 特殊 处 理 。 与 
之 相 比 ， 经 典 的 双重 分 派 是 一 般 性 的 技术 ，Python 和 任何 面向 对 象 语言 都 能 使 用 ， 而 且 不 
Ibi AF ARS EF. ELSE, Ingalls. Hebel 和 Johnson 描述 双重 分 派 使 用 的 示例 完全 不 
同 。 




























































































本 章 开 篇 引用 的 那 段 话 ， 以 及 “杂谈 ”中 引用 的 两 段 话 ， 均 出 自 “The C Family of Languages: 
Interview with Dennis Ritchie, Bjarne Stroustrup, and James Gosling” 一 文 

Chttp://www.gotw.ca/publications/c family interview.htm) ， 刊 登 于 Java Report, 5(7), July 
2000 和 C++ Report, 12(7), July/August 2000 上 。 如 果 你 对 编程 语言 设计 感 兴趣 ， 那 么 这 篇 
文章 非常 值得 一 读 。 
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a 


运算 符 重 载 的 优 缺 点 


如 本 章 开 头 引 用 的 那 段 话 所 述 ，James Gosling 决定 不 让 Java 支持 运算 符 重 载 。 在 那 
次 访谈 中 (“The C Family of Languages: Interview with Dennis Ritchie, Bjarne Stroustrup, 
and James Gosling”, http://www.gotw.ca/publications/c_family interview.htm) ， 他 说 : 


KAI 20% 到 30% HA i fie EF A EE ZY; AE A es A AR 
了 很 多 人 ， 因 为 他 们 使 用 + 做 列表 插入 ， 导 致 生活 一 团 糟 。 这 类 问题 大 都 源 于 
一 个 事实 : 世界 上 有 成 千 上 万 个 运算 符 ， 但 是 只 有 少数 几 个 适合 重 载 。 因 此 ， 我 
们 要 挑选 ， 但 是 有 时 所 作 的 决定 违背 直觉 。 


Guido van Rossum 为 运算 符 重 载 采 取 了 一 种 折 中 方式 : 不 放任 用 户 随意 创建 运算 符 ， 
如 <=> 或 :-)， 这 样 防 止 了 用 户 对 运算 符 的 异想天开 ， 而 且 能 让 Python 解析 器 保持 
简单 。 此 外 ，Python 还 禁止 重 载 内 置 类 型 的 运算 符 ， 这 个 限制 也 能 增强 可 读 性 和 可 预 
知 的 性 能 。 


Gosling 接着 说 道 : 


社区 中 约 有 10% 的 人 能 正确 地 使 用 和 真正 关心 运算 符 重 载 ， 对 这 些 人 来 说 ， 运 
算 符 重 载 是 极其 重要 的 。 这 部 分 人 几乎 专门 处 理 数字 ， 在 这 一 领域 中 ， 为 了 符合 
人 类 的 直觉 ， 表 示 法 特别 重要 ， 因 为 他 们 进入 这 一 领域 时 ， 直 觉 中 已经 知道 + 

的 意思 ， 他 们 知道 “a+b”* 中 的 a 和 b 可 以 是 复数 、 和 矩阵 或 其 他 合理 的 东西 。 


表示 法 方面 的 问题 不 能 低估 。 下 面 以 金融 领域 为 例 说 明 。 在 Python 中， 可 以 使 用 下 
述 公 式 计 算 复 利 : 
































































































































interest = principal * ((1 + rate) ** periods - 1) 

















PA 


不 管 涉 及 什么 数字 类 型 ， 这 种 表示 法 都 成 立 。 因 此 ， 如 果 是 做 重要 的 金融 工作 ， 你 要 
确保 periods 是 整数 ，rate、interest 和 principal 是 精确 的 数字 (Python 中 
decimal.Decimal 类 的 实例 ) ， 这 样 上 述 公 式 就 能 完好 运行 。 


但 是 在 Java 中 ， 如 果 把 float 换 成 精度 不 定 的 BigDecimal, WIA EH F ZE 
算 符 ， 因 为 中 级 运算 符 只 支持 基本 类 型 。 在 Java 中 ， 支 持 BigDecimal 数字 的 公式 
要 这 样 写 : 















































BigDecimal interest = principal.multiply(BigDecimal.ONE.add(rate) 
.pow(periods).subtract(BigDecimal.ONE) ) ; 





显然 ， 使 用 中 级 运算 符 的 公式 更 易 读 ， 至 少 对 大 多 数 人 来 说 如 此 。” 为 了 让 中 绥 运 

算 符 表示 法 支持 非 基 本 类 型 ， 运 算 符 必须 能 重 载 。Python 是 门 高 级 语言 ， 易 于 使 用 ， 
支持 运算 符 重 载 可 能 就 是 它 这 些 年 在 科学 计算 领域 得 到 广泛 使 用 的 主要 原因 。 

当然 ， 语 言 不 支持 运算 符 重 载 也 有 好 处 。 对 极为 重视 性 能 和 安全 的 低级 系统 语言 而 

言 ， 这 无 疑 是 正确 的 决定 。 新 近 出 现 的 Go 语言 在 这 方面 效仿 了 Java， 它 不 支持 运算 
符 重 载 。 


但 是 ， 重 载 的 运算 符 ， 如 果 使 用 得 当 ， 的 确 能 让 代码 更 易于 阅读 和 编写 。 对 现代 的 高 
级 语言 来 说 ， 这 是 个 好 功能 。 


eH 


如 果 仔 细 看 示例 13-9 中 的 调用 跟踪 ， 会 发 现 生 成 器 表达 式 做 惰性 计算 的 证 据 。 示 例 
13-19 再 次 列 出 那些 调用 跟踪 ， 不 过 加 上 了 一 些 标注 。 
























































示例 13-19 与 示例 13-9 一 样 


>>> v1 + 'ABC' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "vector_v6.py", line 329, in _ add _ 
return Vector(a + b for a, b in pairs) #@ 
File "vector_v6.py", line 243, in _init__ 
self. components = array(self.typecode, components) # @ 
File "vector_v6.py", line 329, in <genexpr> 
return Vector(a + b for a, b in pairs) # © 
TypeError: unsupported operand type(s) for +: 'float' and 'str' 








@ Vector 调用 的 components 参数 是 一 个 生成 器 表达 式 。 这 一 步 没 问题 。 


© components 生成 器 表达 式 传 给 array 构造 方法 。 在 这 里 ，Python 尝试 迭 代 生 成 
器 表达 式 ， 因 此 会 计算 第 一 个 元 素 a + b。 这 里 抛 出 了 TypeError。 


异常 向 上 冒 泡 ， 到 达 Vector 构造 方法 调用 ， 在 这 里 报告 出 来 。 
这 表明 ， 生 成 器 表达 式 在 最 后 时 刻 才 会 计算 ， 而 不 是 在 源码 中 定义 它 的 位 置 计算 。 
与 之 相 比 ， 如 果 像 Vector([a + b for a, b in pairs]) 这 样 调 用 Vector 构造 
方法 ， 那 么 这 里 就 会 抛 出 异常 ， 因 为 列表 推导 会 尝试 构建 一 个 列表 ， 以 便 作 为 参数 传 
给 Vector() 调用 。 此 时 ， 根 本 不 会 触及 Vector._ init__ 的 定义 体 。 


章 会 详细 讨论 生成 器 表达 式 ， 但 是 我 不 想 让 示例 中 偶然 出 现 的 惰性 计算 迹象 漏 
过 去 。 









































1 我 的 朋友 Mario Domenech Goulart, CHICKEN Scheme 编译 器 Chttp//www.call-cc.org) 的 核心 开发 者 ， 可 能 不 会 同意 
这 一 说 法 。 





第 五 部 分 ”控制 流程 


第 14 ee ARRIR, RAA E Bae 


当 我 在 自己 的 程序 中 发 现 用 到 了 模式 ， 我 觉得 这 就 表明 茶 个 地 方 出 错 了 。 程 序 的 形式 
应 该 仅仅 反映 它 所 要 解决 的 问题 。 代 码 中 其 他 任何 外 加 的 形式 都 是 一 个 信号 ，《〈 人 至少 
对 我 来 说 ) 表明 我 对 问题 的 抽象 还 不 够 深 一 一 这 通常 意味 着 自己 正在 手动 完成 的 事 
情 ， 本 应 该 通过 写 代码 来 让 宏 的 扩展 自动 实现 。 























Paul Graham? 
Lisp 黑客 和 风险 投资 人 








1 摘自 一 篇 博客 文章 ，“Revenge of the Nerds”(“ 书 果子 的 复仇 ”，http//www.pauleraham.com/icad.html》 。 











Paul Graham 的 文集 《黑客 与 画家 : 来 自 计 算 机 时 代 的 高 见 》 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 : 978-7-115-32656-0。 
编者 注 




































































迭代 是 数据 处 理 的 基石 。 扫 描 内 存 中 放 不 下 的 数据 集 时 ， 我 们 要 找到 一 种 惰性 获取 数据 
项 的 方式 ， 即 按 需 一 次 获取 一 个 数据 项 。 这 就 是 迭代 器 模式 (Iterator pattern) 。 本 章 说 明 
Python 语言 是 如 何 内 置 迭 代 器 模式 的 ， 这 样 就 避免 了 自己 手动 去 实现 。 

















与 Lisp (Paul Graham 最 喜欢 的 语言 ) 不 同 ，Python AZ, 因此 为 了 抽象 出 选 代 器 模 
式 ， 需 要 改动 语言 本 身 。 为 此 ，Python 2.2 (2001 年 ) 加 入 了 yield 关键 字 。3 这 个 关键 
字 用 于 构建 生成 器 (generator) ， 其 作用 与 迭代 器 一 样 。 









































3python 2.2 的 用 户 可 以 使 用 from future import generators 指令 获取 yield 关键 字 ; 在 Python 2.3 
H, yield 关键 字 默 认可 用 。 














` ATA ae a IE at, KAIEN S AH. BL, ARG G 
计 模 式 : 可 复 用 面 问 对 象 软件 的 基础 》 一 书 的 定义 ， 迭 代 器 用 于 从 集合 中 取出 元 素 ; 
而 生成 器 用 于 “凭空 "生成 元 素 。 通 过 斐 波 纳 契 数列 能 很 好 地 说 明 二 者 之 间 的 区 别 : E 
波 纳 契 数列 中 的 数 有 无 穷 个 ， 在 一 个 集合 里 放 不 下 。 不 过 要 知道 ， 在 Python 社区 
中 ， 大 多 数 时 候 都 把 迭代 器 和 生成 器 视 作 同一 概念 。 


在 Python 3 中， 生成 器 有 广泛 的 用 途 。 现 在 ， 即 使 是 内 置 的 range() 函数 也 返回 一 
似 生 成 器 的 对 象 ， 而 以 前 则 返回 完整 的 列表 。 如 果 一 定 要 让 range() 函数 返 zm 7 
么 必须 明确 指明 Celli, list(range(10@))) 。 



































在 Python 中 ， 所 有 集合 都 可 以 迭代 。 在 Python BAAR, RAAT SCH: 
。 for 循环 
。 构 建 和 扩展 集合 类 型 
逐 行 遍历 文本 文件 











。 列表 推 导 、 字 典 推导 和 集合 推导 


。 元 组 拆 包 
。 HARRI, (RAL * 拆 包 实 参 
本 章 涵盖 以 下 话题 : 




















。 语 言 内 部 使 用 iter(...) 内 置 函 数 处 理 可 迭代 对 象 的 方式 

。 如何 使 用 Python 实现 经 典 的 迭代 器 模式 

。 详细 说 明生 成 器 函数 的 工作 原理 

。 如 何 使 用 生成 器 函数 或 生成 器 表达 式 代 替 经 典 的 迭代 器 

。 如 何 使 用 标准 库 中 通用 的 生成 器 函数 

。 如 何 使 用 yield from 语句 合并 生成 器 

。 案例 分 析 : 在 一 个 数据 库 转换 工具 中 使 用 生成 器 函数 处 理 大 型 数据 集 

。 为 什么 生成 器 和 协 程 看 似 相 同 ， 实 则 差别 很 大 ， 不 能 混 消 
首先 来 研究 iter(...) 函数 如 何 把 序列 变 得 可 以 迭代 。 



























































14.1 Sentence 类 第 1 版 : 单词 序列 


我 们 要 实现 一 个 Sentence 类 ， 以 此 打开 探索 可 选 代 对 象 的 旅程。 我 们 加 这 个 类 的 构 霹 万 
法 传 入 包含 一 些 文本 的 字符 串 ， 然 后 可 以 逐个 单词 迭代 。 第 1 版 要 实现 序列 协议 ， 这 个 
nh 因为 所 有 序 别 邦 避 以 选 代 一 这 一 点 前 面 已 笃 说 过 ， TA RMA 
正 的 原因 


示例 14-1 定义 了 一 个 Sentence 类 ， 通 过 索引 从 文本 中 提取 单词 。 
示例 14-1 sentence.py: 把 句子 划分 为 单词 序列 


























import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 
def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) @ 


def _ getitem_(self, index): 
return self.words[index] @ 


de 


十 


_ len (self): © 
return len(self.words) 


def _ repr__ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) © 





























Q re. findall ABGKEI—A SFB, FORE EMI ATA AAEM SLAC. 


© self.words 中 保存 的 是 .findall 函数 返回 的 结果 ， 因 此 直接 返回 指定 索引 位 上 的 单 
词 。 


O 为 了 完善 序列 协议 ， 我 们 实现 了 len AE: 不 过 ， 为 了 让 对 象 可 以 迭代 ， 没 必要 
实现 这 个 方法 。 


@ reprlib.repr 这 个 实用 函数 用 于 生成 大 型 数据 结构 的 简略 字符 串 表 示 形 式 。 















































4 首次 使 用 reprlib 模块 是 在 10.2 节 。 























默认 情况 下 ， reprlib. repr 函数 生成 的 字符 串 最 多 有 30 MEF. Sentence 类 的 用 法 参 
见 示例 14-2 中 的 控制 台 会 话 。 











示例 14-2 ”测试 Sentence Xipe TIe 


>>> S = Sentence('"The time has come," the Walrus said,') # © 
>>> S 

Sentence('"The time ha... Walrus said,') #@ 

>>> for word ins: # 

print (word) 


>>> list(s) # © 
['The', ‘time', ‘has', ‘come’, 'the', ‘Walrus', 'said'] 











@ 传 入 一 个 字符 串 ， 创 建 一 个 Sentence 实例 。 

四 注意 ，_repr_ ”方法 的 输出 中 包含 reprlib.repr 方法 生成 的 ...。 

© Sentence 实例 可 以 迭代 ， 稍 后 说 明 原因 。 

OAFLA, Pred Sentence 对 象 可 以 用 于 构建 列表 和 其 他 可 和 迭代 的 类 型 。 

在 接 下 来 的 几 页 中 ， 我 们 还 要 开发 其 他 Sentence 类 ， 而 且 都 能 通过 示例 14-2 中 的 测 


试 。 不 过 ， 示 例 14-1 中 的 实现 与 其 他 实现 都 不 同 ， 因 为 这 一 版 Sentence 类 也 是 序列 ， 
可 以 按 索引 获取 单词 : 
































所 有 Python 程序 员 都 知道 ， 序 列 可 以 欠 代 。 下 面 说 明 具 体 的 原因 。 





序列 可 以 迭代 的 原因 : iter 函 数 

ARRAS Te BIRT AR x 时 ， 会 自动 调用 iter(x). 

AAH iter 函数 有 以 下 作用 。 

(1) 检查 对 象 是 否 实现 了 iter 方法 ， 如 果实 现 了 束 调 用 它 ， 获 取 一 个 迭代 器 。 























(2) 如 果 没有 实现 _iter__ 方 法， 但 是 实现 了 __getitem _ 方 法 ，Python 会 创建 一 个 先 
代 器 ， 举 试 按 顺序 “从 索引 0 开始 ) 获取 元 素 。 














y 


(3) MRERAM, Python 抛 出 TypeError 异常 ， 通 常会 提示 “C object is not iterable” (C 
WAAR) , RAC 是 目标 对 象 所 属 的 类 。 


任何 Python 序列 都 可 迭代 的 原因 是 ， 它 们 都 实现 了 __getitem_ 方 法。 其实 ， 标 准 的 序 




















列 也 都 实现 了 iter 方法， 因此 你 也 应 该 这 么 做 。 之 所 以 对 getitem_ “方法 做 特 
殊 处 理 ， 是 为 了 向 后 兼容 ， 而 未 来 可 能 不 会 再 这 么 做 《人 不过， 写作 本 书 时 还 未 弃 用 ) 。 


11.2 节 提 到 过 ， 这 是 鸭子 类 型 (ducktyping) 的 极端 形式 : 不 仅 要 实现 特殊 的 _ iter__ 
方法 ， 还 要 实现 ”getitem Wk, 而且 getitem _ 方法 的 参数 是 从 8 开始 的 整数 
Cint) ， 这 样 才 认 为 对 象 是 可 迭代 的 。 


FARKE! (goose-typing) 理论 中 ， 可 迭代 对 象 的 定义 简单 一 些 ， 不 过 没 那么 灵活 : 如 
果实 现 了 _iter 方法， 那么 就 认为 对 象 是 可 人 迭代 的 。 in. eee ， 也 不 用 
注册 ， 因 为 abc.Iterable 类 实现 了 subclasshook ”方法 ， 如 11.10 节 所 述 。 下 面 
举 个 例子 : 



























































>>> class Foo: 
def _iter (self): 
pass 


>>> from collections import abc 
>>> issubclass(Foo, abc.Iterable) 
True 

>>> f = Foo() 

>>> isinstance(f, abc.Iterable) 
True 


























不 过 要 注意 ， 虽 然 前 面 定义 的 Sentence 类 是 可 以 迭代 的 ， 但 却 无 法 通过 issubclass 
(Sentence, abc.Iterable) 测试 。 




















AI 从 Python 3.4 开始 ， 检 查 对 象 x HEATER, WEDE: 调用 iter(x) K 
数 ， 如 果 不 可 和 迭代， 再 处 理 TypeError 异常 。 这 比 使 用 isinstance(X， 
abc.Iterable) 更 准确 ， 因 为 iter(x) 函数 会 考虑 到 遗留 的 ”getitem _ 方法 ， 
而 abc.Iterable 类 则 不 考虑 。 


欠 代 对 象 之 前 显 式 检查 对 象 是 否 可 选 代 或 许 没 必要 ， 毕竟 尝试 迭代 不 可 迭代 的 对 象 时 ， 
Python 抛 出 的 异常 FRO TypeError: 'C' object is not iterable. 如 果 除 
了 抛 出 TypeError 异常 之 外 还 要 做 进一步 的 处 理 ， 可 以 使 用 try/except 块 ， 而 无 需 

如 果 要 保存 对 象 等 以 后 再 迭代 ， 或 许可 以 显 式 检 查 ， 因 为 这 种 情况 可 和 外 需要 尽 
早 捕获 错误 。 


下 一 节 详 述 可 迭代 的 对 象 和 迭代 器 之 间 的 关系 。 










































































14.2 HAR A BIA CES HT EL 
从 14.1.1 节 的 解说 可 以 推 知 下 述 定义 。 
可 迭代 的 对 象 

使 用 iter 内 置 函 数 可 以 获取 迭代 器 的 对 象 。 如 果 对 象 实现 了 能 返回 迭代 器 的 
_iter 方法， 那么 对 象 就 是 可 迭代 的 。 序 列 都 可 以 友 代 ; 实现 了 getitem 7 
法 ， 而 且 其 参数 是 从 零 开 始 的 索引 ， 这 种 对 象 也 可 以 迭代 。 
我 们 要 明确 可 迭代 的 对 象 和 迭代 器 之 间 的 关系 : Python 从 可 迭代 的 对 象 中 获取 迭代 器 。 


下 面 是 一 个 简单 的 for 循环 ， 和 迭代 一 个 字符 串 。 这 里 ， 字 符 串 "ABC' 是 可 和 迭代 的 对 象 。 
背后 是 有 和 迭代 器 的 ， 只 不 过 我 们 看 不 到 : 






































>>> s = ‘ABC' 
>>> for char in s: 
print(char) 














如 果 没 有 for 语句 ， 不 得 不 使 用 while 循环 模拟 ， 要 像 下 面 这 样 写 ; 














>>> s = 'ABC' 
>>> it = iter(s) # © 
>>> while True: 
try: 
print(next(it)) #@ 
except StopIteration: # © 
del it #06 
break # © 


A 
B 
C 











@ EHAR RIR RK ERRA ito 

O TIERE EHH next 函数 ， 获 取 下 一 个 字符 。 

O WRATH S, HARSH StopIteration 异常 。 
四 释放 对 it 的 引用 ， 即 废弃 迭代 器 对 象 。 

O 退出 循环 。 

StopIteration 异常 表明 迭代 器 到 头 了 。 了 Python 语言 内 部 会 处 理 For 循环 和 其 他 迭代 上 











d 














a 











下 文 〈 如 列表 推导 、 元 组 拆 包 ， 等 等 ) 中 的 StopIteration 异常 。 
标准 的 迭代 器 接口 有 两 个 方法 。 








__ next__ 


返回 下 一 个 可 用 的 元 素 ， 如 果 没 有 元 素 了 ， 抛 出 StopIteration 异常 。 








__iter__ 
返回 self, VAGETE MIA IEA AAO RAH AIA Nas, ME For 循环 中 。 


这 个 接口 在 collections.abc.Iterator 抽象 基 类 中 制定 。 这 个 类 定义 了 __next__ ft 
象 方法 ， 而 且 继 承 自 Iterable 类 ; iter _ 抽象 方法 则 在 Iterable 类 中 定义 。 如 图 
14-1 所 示 。 














构建 


def iter (self): 


return self 





14-1: Iterable 和 Iterator 抽象 基 类 。 以 斜体 显示 的 是 抽象 方法 。 有 具体 的 
Iterable. iter ”方法 应 该 返回 一 个 Iterator 实例 。 有 具体 的 Iterator 类 必须 实 
现 _next _ 方法 。Iterator. iter _ 方法 直接 返回 实例 本 身 








Iterator 抽象 基 类 实现 _iter 方法 的 方式 是 返回 实例 本 里 (return self) 。 这 
样 ， 在 需要 可 壕 代 对 象 的 地 方 可 以 使 用 迭代 器 。 示 例 14-3 是 abc.Iterator 类 的 源码 。 


示例 14-3 abc.Iterator 类 ， 摘 自 
Lib/_collections abc.py (https://hg.python.org/cpython/file/3.4/Lib/ collections abc.py#193) 








class Iterator(Iterable): 


_slots = () 


@abstractmethod 

def _next (self): 
'Return the next item from the iterator. When exhausted, raise StopIteration' 
raise StopIteration 





def _iter (self): 
return self 


@classmethod 
def __subclasshook_ (cls, C): 
if cls is Iterator: 
if (any("__next__" in B.__dict__ for B in C.__mro_) and 
any("__iter__" in B.__dict__ for B in C.__mro_)): 
return True 
return NotImplemented 

















Pr 在 Python3 1, Iterator 抽象 基 类 定义 的 抽象 方法 是 it. next ()， 而 
在 Python 2 中 是 it.next()。 一 如 既往 ， 我 们 应 该 避免 直接 调用 特殊 方法 ， 使 用 
next(it) 即 可 ， 这 个 内 置 的 函数 在 Python 2 和 Python 3 中 都 能 使 用 。 


在 Python 3.4 中 ，Lib/types.py (https://hg.python.org/cpython/file/3.4/Lib/types.py) 模块 的 源 
码 里 有 下 面 这 段 注 释 : 











# Iterators in Python aren't a matter of type but of protocol. A large 
# and changing number of builtin types implement *some* flavor of 

# iterator. Don't check the type! Use hasattr to check for both 

# ”iter " and " next " attributes instead. 











其 实 ， 这 就 是 abc .Iterator 抽象 基 类 中 subclasshook _ 方法 的 作用 (参见 示例 14- 
3) o 








~I 考虑 到 Lib/types.py 中 的 建议 ， 以 及 Lib/_collections_abe.py 中 的 实现 逻辑 ， 检 
查 对 象 x 是 否 为 迭代 器 最 好 的 方式 是 调用 isinstance(x, abc.Iterator). fim 
于 Iterator. subclasshook _ 方法， 即使 对 象 x 所 属 的 类 不 是 Iterator 类 的 
真实 子 类 或 虚拟 子 类 ， 也 能 这 样 检 查 。 


再 看 示例 14-1 中 定义 的 Sentence 类 ， 在 Python 控制 台中 能 清楚 地 看 出 如 何 使 用 
iter(...) 函数 构建 迭代 器 ， 以 及 如 何 使 用 next(...) 函数 使 用 迭代 器 : 
































>>> s3 = Sentence('Pig and Pepper') # © 
>>> it = iter(s3) #@ 

>>> it # doctest: +ELLIPSIS 
<iterator object at @x...> 

>>> next(it) # © 

'Pig' 

>>> next(it) 

'and' 

>>> next(it) 

"Pepper' 

>>> next(it) #@ 

Traceback (most recent call last): 





StopIteration 

>>> list(it) # © 

[] 

>>> list(iter(s3)) # © 
['Pig', ‘and', 'Pepper'] 








@ 创建 一 个 sentence 实例 s3, HA 3 个 单词 。 

四 从 s3 中 获取 迭代 器 。 

© 调用 next(it)， 获 取 下 一 个 单词 。 

@ 没有 单词 了 ， 因 此 从 代 器 抛 出 StopIteration 异常 。 
O FILE, AREH T o 

@ 如 果 想 再 次 迭代 ， 要 重新 构建 迭代 器 。 




















因为 迭代 器 只 需 _next 和 __iter _ 两 个 方法 ， 所 以 除了 调用 next() WE, WAH 
获 StopIteration 异常 之 外 ， 没 有 办 法 检查 是 否 还 有 遗留 的 元 素 。 此 外 ， 也 没有 办 




















TESS) IE NaS URGE, AREAL iter(.. 














. )， 传 入 之 前 构建 迭代 器 的 可 








迭代 对 象 。 传 入 友 代 器 本 身 没 用 ， 因 为 前 面 说 过 Iterator._ iter ”方法 的 实现 方式 是 
返回 实例 本 身 ， 所 以 传 入 迭代 器 无 法 还 原 已 经 耗 尽 的 迭代 器 。 

















根据 本 节 的 内 容 ， 可 以 得 出 迭代 器 的 定义 如 下 。 
RA 
迭代 器 是 这 样 的 对 象 : 实现 了 无 参数 的 __next__ 

















方法 ， 返 回 序 列 中 的 下 一 个 元 素 ; 





MH 


如 果 没 有 元 素 了 ， 那 么 抛 出 stopIteration HH. Python 中 的 迭代 器 还 实现 了 





_ iter_ 方法 ， 因 此 友 代 器 也 可 以 迭代 。 




















因为 内 置 的 iter(...) 函数 会 对 序列 做 特殊 处 理 ， 所 以 第 1 版 Sentence 类 可 以 迭代 。 








接 下 来 要 实现 标准 的 可 迭代 协议 。 


14.3 Sentence% 2k: 典型 的 迭代 器 


第 2 版 Sentence 类 根据 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 给 出 的 模型 ， 实 
现 典 型 的 迭代 器 设计 模式 。 注 意 ， 这 不 符合 Python 的 习惯 做 法 ， 后 面 重 构 时 会 说 明 原 
因 。 不 过 ， 通 过 这 一 版 能 明确 可 迭代 的 集合 和 人 迭代 器 对 象 之 间 的 关系 。 

示例 14-4 中 定义 的 Sentence 类 可 以 迭代 ， 因 为 它 实 现 了 特殊 的 iter _ 方法 ， 构 建 
并 返回 一 个 SentenceIterator 实例 。《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 
就 是 这 样 描 述 迭 代 器 设计 模式 的 。 


coer ial 是 为 了 清楚 地 说 明 可 和 迭代 的 对 象 和 迭代 器 之 间 的 重要 区 别 ， 以 及 二 者 
之 间 ~ 四 FR o 


示例 14-4 sentence_iter.py: 使 用 迭代 器 模式 实现 Sentence 类 







































































import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


def _ repr__ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _iter (self): © 
return SentenceIterator(self.words) @ 


class SentenceIterator: 


def _ init__(self, words): 
self.words = words © 
self.index = 6 © 


def _next_ (self): 
try: 
word = self.words[self.index] © 
except IndexError: 
raise StopIteration() © 
self.index += 1 @ 
return word © 


def _iter (self): © 
return self 








@ 与 前 一 版 相 比 ， 这 里 只 多 了 一 个 iter 
的 是 明确 表明 这 个 类 可 以 近代 ， 因 为 实现 了 __ 


O 根据 可 和 迭代 协议 ，__iter__ 


@ SentenceIterator 实例 引用 单词 多 









































@ self.index 用 于 确定 下 
@ 获取 self.index 索引 位 上 的 单词 。 

@ 如 果 self.index 索引 位 上 没有 单词 ， 那 么 抛 出 StopIteration 
@ 递增 self.index 的 值 。 











@ 返回 单词 。 


@ 实 现 self. iter __ 


示例 14-4 PIN TUS REIL as 


注意 ， 对 这 个 示例 来 说 ， 其 实 没 必要 在 SentenceIterator 类 中 实现 
不 过 这 么 做 是 对 的 ， 因 为 迭代 器 应 该 实现 __ 


个 要 获取 的 单词 。 














_iter _ Aik, 
_ 两 个 方法 ， 而 且 这 么 做 








__getitem_ 方法 ,为 





He LEIS (as iegube fave( Gent enc ernberator: abc. Iterator) 测试 。 如 果 让 
SentenceIterator 类 继承 abc.Iterator 类 ， 那 么 它 会 继承 abc.Iterator. iter _ 





这 个 具体 方法 。 


这 一 版 的 工作 量 很 大 (对 懒 





意 ，SentenceIterator 


的 Python 程序 员 来 说 确实 如 此 ) 。 注 


























DAUR MRS. BIR 








简化 。 不 过 ， 在 此 之 前 我 们 先 稍微 离 题 


把 Sentence 变 成 迭代 器 : 


构建 可 迭代 的 对 象 和 迭代 器 时 经 
RAS iter _ 方法 ， 每 次 都 实例 化 一 
法 ， 返 回 单个 元 素 ， 此 外 还 要 及 


因此 ， 迭 代 器 可 以 迭代 ， 但 是 可 迭代 的 对 象 不 是 迭代 器 。 
除了 _iter _ 方法 之 外 ， 你 可 能 还 想 在 Sentence 类 


Sentence 实例 既是 可 迭代 的 对 象 ， 也 是 自身 的 迭代 器 。 ri ,这 种 想法 非常 
有 大 量 Python 代码 审查 经 验 的 Alex Martelli 所 说 ， 这 也 是 




































































双 常 会 出 现 错误 ， 原 因 是 混 消 了 二 者 。 要 知道 
个 新 的 选 代 器 ;而 选 代 器 要 实现 























说 明 如 何 


音 误 的 实现 捷径 。 


» AIBA 
_ next 方 





方法 ? 让 





MEER RR 





《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 迭代 器 设计 模式 时 ， 在 “适用 性 ”一 节 


中 说 : 














5《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基 而 























TS Ra PRN HR: 
。 访问 一 个 聚合 对 象 的 内 容 而 无 需 暴 露 它 的 内 部 表示 
。 文 持 对 聚合 对 象 的 多 种 遍 
。 为 遍历 不 同 的 聚合 结构 提供 一 个 统一 的 接口 〈《 即 支持 多 态 从 代 ) 


为 了 “支持 多 种 裔 历 ”， 必 须 能 从 同一 个 可 迭代 的 实例 中 获取 多 个 独立 的 迭 代 器 ， 而 且 各 个 
TE Cae 维护 自身 的 内 部 状态 ， 因 此 这 一 模式 正确 的 实现 方式 是 ， 每 次 调用 
iter(my_iterable) ABET AC. 这 就 是 为 什么 这 个 示例 需要 定 》 


SentenceIterator 类 。 


` 


HIER OT RR EAE IAS. BE ARAA R ASEN, 
_iter _ 方法 ， 但 不 能 实现 next__ 方法 。 


另 一 方面 ， 迭 代 器 应 该 一 直 可 以 迭代 。 和 友 代 器 的 _iter_ 方法 应 该 返回 自身 。 


至 此 ， 我 们 演示 了 如 何 正确 地 实现 典型 的 迭代 器 模式 。 本 节 至 此 告 一 段落 ， 下 一 节 展 示 如 
何 使 用 更 符合 Python 习惯 的 方式 实现 Sentence 类 。 










































































14.4 Sentence 类 第 3 版 : AEB aS PK BY 


实现 相同 功能 ， 但 却 符合 Python 习惯 的 方式 是 ， 用 生成 器 函数 代替 SentenceIterator 
类 。 先 看 示例 14-5， 然 后 详细 说 明生 成 器 函数 。 


示例 14-5 sentence_gen.py: 使 用 生成 器 函数 实现 Sentence 类 








import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 
self.words = RE_WORD.findall(text) 


def _ repr__ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _ iter _ (self): 
for word in self.words: © 
yield word @ 
return © 


# 完成 ! © 





@ iE self.words. 
四 产 出 当前 的 word. 
Q 这 个 return 语句 不 是 必要 的 ; 这 个 函数 可 以 直接 “落空 ”， 自 动 返回 。 不 管 有 没有 


return 语句 ， 生 成 器 函数 都 不 会 抛 出 stopIteration 异常 ， 而 是 在 生成 完全 部 值 之 后 
Saran. © 




































































SA lex Martelli 审查 这 段 代 码 时 建议 简化 这 个 方法 的 定义 体 ， 直 接 使 用 return iter(self.words)。 当 然 ， 他 是 对 的 
毕竟 调用 __iter_ ”方法 得 到 的 就 是 迭代 器 。 不 过 ， 这 里 我 用 的 是 for 循环 ， 而 且 用 到 了 yield 关键 字 ， 这 样 做 是 为 
了 介绍 生成 器 函数 的 名 法。 下 一 节 会 详细 说 明 。 





































































































O 不 用 再 单独 定义 一 个 迭代 器 类 ! 
我 们 又 使 用 一 种 不 同 的 方式 实现 了 Sentence 类 ， 而 且 也 能 通过 示例 14-2 中 的 测试 。 











在 示例 14-4 定义 的 Sentence 类 中 ， ”iter _ 方法 调用 SentenceIterator 类 的 构造 
方法 创建 一 个 迭代 器 并 将 其 返回 。 而 在 示例 14-5 中 ， 和 迭代 器 其 实 是 生成 器 对 象 ， 每 次 调 
用 _ iter ”方法 都 会 自动 创建 ， 因 为 这 里 的 _ iter ”方法 是 生成 器 函数 。 























下 面 全 面 说 明生 成 器 函数 。 
生成 融 函 数 的 工作 原理 


只 要 Python 函数 的 定义 体 中 有 yield 关键 字 ， 该 函数 就 是 生成 器 函数 。 调 用 生成 器 函数 
时 ， 会 返回 一 个 生成 器 对 象 。 也 就 是 说 ， 生 成 器 函数 是 生成 器 工厂 。 




















普通 的 函数 与 生成 器 函数 在 句法 上 唯一 的 区 别 是 ， 在 后 者 的 定义 体 中 有 yield 
关键 字 。 有 些 人 认为 定义 生成 器 函数 应 该 使 用 一 个 新 的 关键 字 ， 例 如 gen， 而 不 该 使 
用 def， 但 是 Guido 不 同意 。 他 的 理由 参见 “PEP 255— — Simple 
Generators” (https://www.python.org/dev/peps/pep-0255/) 。 












































7 有 时， 我 会 在 生成 器 函数 的 名 称 中 加 上 gen 前 缀 或 后 级 ， 不 过 这 不 是 习惯 做 法 。 显 然 ， 如 果实 现 的 是 迭代 器 ， 那 就 




















不 能 这 么 做 ， 因 为 所 需 的 特殊 方法 必须 命名 为 iter 


下 面 以 一 个 特别 简单 的 函数 说 明生 成 器 的 行为 :5 























8 感谢 David Kwast 建议 使 用 这 个 示例 。 








>>> def gen 123(): # © 
a yield 1 #@ 
yield 2 
yield 3 


>>> gen 123 # doctest: +ELLIPSIS 
<function gen_123 at @x...> #60 

>>> gen_123()  # doctest: +ELLIPSIS 
<generator object gen 123 at 6x... > #0 
>>> for i in gen 123(): #©@ 

print(i) 


WNB. 


>>> g = gen 123() #0 
>>> next(g) # Q 

1 

>>> next(g) 

2 

>>> next(g) 


>>> next(g) #0 
Traceback (most recent call last): 





StopIteration 
@ 只 要 Python 函数 中 包含 关键 字 yield， 该 函数 就 是 生成 器 函数 。 


O 生成 器 函数 的 定义 体 中 通常 都 有 循环 ， 不 过 这 不 是 必要 条 件 ; 这 里 我 重复 使 用 3 次 
yield. 




















OTHE, gen_123 是 函数 对 象 。 

@ 但 是 调用 时 ，gen_123() 返回 一 个 生成 器 对 象 。 

O 生成 器 是 迭代 器 ， 会 生成 传 给 yield 关键 字 的 表达 式 的 值 。 

O 为 了 仔细 检查 ， 我 们 把 生成 器 对 象 赋值 给 g 

O 因为 g 是 迭代 器 ， 所 以 调用 next(g) 会 获取 yield 生成 的 下 一 个 元 素 。 

O 生成 器 函数 的 定义 体 执行 完毕 后 ， 生 成 器 对 象 会 抛 出 StopIteration 异常 。 
生成 器 函数 会 创建 个 生成 器 对 象 ， 包 装 生成 器 函数 的 定义 体 。 把 生成 器 传 给 
next(...) 函数 时 ， 生 成 器 函数 会 向 前 ， 执 行 函数 定义 体 中 的 下 一 个 yield 语句 ， 


产 出 的 值 ， 并 在 函数 定义 体 的 当前 位 置 暂停 。 最 终 ， 函 数 的 定义 体 返 cre 外 层 的 生成 器 
对 这 一 点 与 迭代 器 协议 一 致 。 






























































我 觉得 ， 使 用 准确 的 词语 描述 从 生成 器 中 获取 结果 的 过 程 ， 有 助 于 理解 生成 
。 注 意 ， 我 说 的 是 产 出 或 生成 值 。 如 果 说 生成 器 “返回 ” 值 ， 就 会 让 人 难以 理解 。 
TEENA, 调用 生成 器 函数 返回 生成 器 ， 生 成 器 产 出 或 生成 值 。 生 成 器 不 会 以 常规 

的 方式 “返回 ” 值 : 生成 器 函数 定义 体 中 的 return 语句 会 触发 生成 器 对 象 抛 出 


=i 


StopIteration 7713 © 9 





























?在 Python 3.3 之 前 ， 如 果 生 成 器 函数 中 的 return 语句 有 返回 值 ， 那 么 会 报错 。 现 在 可 以 这 么 做 ， 不 过 return 语句 
仍 会 导致 stopIteration 异常 抛 出 。 调 用 方 可 以 从 异常 对 象 中 获取 返回 值 。 可 是 ， 只 有 把 生成 器 函数 当成 协 程 使 用 
时 ， 这 么 做 才 有 意义 ， 详 情 参见 16.6 节 。 
















































































示例 14-6 使 用 for 循环 更 清楚 地 说 明了 生成 器 函数 定义 体 的 执行 过 程 。 
示例 14-6 运行 时 打印 消息 的 生成 器 函数 





>>> def gen AB(): # O 
print('start') 
yield 'A' #0 
print( ‘continue’ ) 
yield 'B' +O 
print('end.') #0 

>>> for c in gen AB(): # O 
print('-->', c) #0 


continue © 
-->B © 
end. @ 
>> @ 














定义 生成 器 函数 的 方式 与 普通 的 函数 无 异 ， 只 不 过 要 使 用 yield 关键 字 。 








人 @ 在 for 循环 中 第 一 次 隐 Bali ae’ 函数 时 (序号 @@) ， 会 打印 'start'， 然 后 停 
在 第 一 个 yield 语句 ， 生 成 值 


© £ for 1 ee next() 函数 时 ， 会 打印 "continue'， 然 后 停 在 第 二 个 
yield 语句 ， 生 成 值 


O 第 三 次 调用 next() 函数 时 ， 会 打印 "end.'， 然 后 到 达 函 数 定义 体 的 末尾 ， 导 致 生成 
器 对 象 抛 出 StopIteration 异常 。 


Ose, for 机 制 的 作用 与 g = iter(gen_AB()) 一 样 ， 用 于 获取 生成 器 对 象 ， 然 后 
每 次 迭代 时 调用 next (g) 。 


@ 循环 块 打印 --> 和 next(g) 返回 的 值 。 但 是 ， 生 成 器 函数 中 的 print 函数 输出 结果 之 
后 才 会 看 到 这 个 输出 。 


@ 'start' 是 生成 器 函数 定义 体 中 print('start') 输出 的 结果 。 
O 生成 器 函数 定义 体 中 的 yield 'A' 语句 会 生成 值 A， 提 供给 for 循环 使 用 ， 而 A 会 赋 
值 给 变量 c， 最 终 输 出 --> Ao 


© 第 二 次 调用 next(g)， 继 续 迄 代 ， 生 成 器 函数 定义 体 中 的 代码 由 yield 'A' 前 进 到 
yield 'B'。 文 本 continue 是 由 生成 器 函数 定义 体 中 的 第 二 个 print 函数 输出 的 。 


Q yield 'B' 语句 生成 值 B， 提 供给 for 循环 使 用 ， 而 B 会 赋值 给 变量 c， 所 以 循环 打 
印 出 --> B. 


D 第 三 次 调用 next(it)， 继 续 迭 代 ， 前 进 到 生成 器 函数 的 末尾 。 文 本 end. 是 由 生成 器 
函数 定义 体 中 的 第 三 个 print 函数 输出 的 。 到 达 生 成 器 函数 定义 体 的 末尾 时 ， 生 成 器 对 
FILH StopIteration 异常 。for 机 制 会 捕获 异常 ， 因 此 循环 终止 时 没有 报错 。 


@ 现在， 希望 你 已 经 知道 示例 14-5 Sentence. iter 方法 的 作用 了 : _iter__ 
方法 是 生成 器 函数 ， 调 用 时 会 构建 一 个 实现 了 和 迭代 器 接口 的 生成 器 对 象 ， 因 此 不 用 再 定义 


SentenceIterator 类 了 。 


这 一 版 Sentence 类 比 前 一 版 简短 多 了 ， 但 是 还 不 够 懒 懈 。 如 今 ， 人 们 认为 惰性 是 好 的 特 
质 ， 至 少 在 编程 语言 和 API 中 是 如 此 。 人 惰性 实现 是 指 尽 可 能 延 后 生成 值 。 这 样 做 能 节省 
内 存 ， 而 且 或 许 还 可 以 避免 做 无 用 的 处 理 。 


下 一 节 以 这 种 惰性 方式 定义 Sentence 类 。 






























































































































































14.5 Sentence 类 第 4 版 : 惰性 实现 





设计 Iterator 接口 时 考虑 到 了 惰性 : next(my_iterator) 一 次 生成 一 个 元 素 。 懒 惰 
反义词 是 急迫 ， 其 实 ， 惰 性 求 值 (lazy evaluation) 和 及 早 求 值 (eager evaluation) 是 编 和 























语言 理论 方面 的 技术 术语 。 

















的 
mi 
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目前 实现 的 几 版 Sentence 类 都 不 具有 惰性 ， 因 为 init_ “方法 急迫 地 构建 好 了 文本 中 
的 单词 列表 ， 然 后 将 其 绑 定 到 self.words 属性 上 。 这 样 就 得 处 理 整 个 文本 ， 列 表 使 用 的 
内 存量 可 能 与 文本 本 身 一 样 多 《或 许 更 多 ， 这 取决 于 文本 中 有 多 少 非 单词 字符 ) 。 如 果 只 









































MISTRAL i], ASL BEA RAT 
只 要 使 用 的 是 Python 3， 思 索 着 做 某 件 事 有 没有 懒惰 的 方式 ， 答 案 通常 都 是 肯定 的 。 


re.finditer 函数 是 re.findall 函数 的 惰性 版 本 ， 返 回 的 不 是 列表 ， 而 是 一 个 生成 
器 ， 按 需 生成 re.Matchobject 实例 。 如 果 有 很 多 匹配 ，re .finditer 函数 能 节省 大 
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内 存 。 我 们 要 使 用 这 个 函数 让 第 4 版 Sentence 类 变 得 懒惰 ， 即 只 在 需要 时 才 生 成 下 一 个 





单词 。 代 码 如 示例 14-7 所 示 。 


示例 14-7 sentence_gen2.py: 在 生成 器 函数 中 调用 re .finditer 生成 器 函数 ， 实 现 


Sentence 类 





import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text © 


def _ repr__ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _ iter _ (self): 
for match in RE_WORD.finditer(self.text): @ 
yield match.group() © 











@ 不 再 需要 words 列表 。 


© finditer 函数 构建 一 个 迭代 器 ， 包 含 self.text 中 匹配 RE_WORD 的 单词 ， 产 出 
MatchObject 实例 。 











© match.group() 方法 从 MatchObject 实例 中 提取 匹配 正则 表达 式 的 具体 文本 。 
生成 器 函数 已 经 极 大 地 简化 了 代码 ， 但 是 使 用 生成 器 表达 式 甚 至 能 把 代码 变 得 更 简短 。 








14.6 Sentence 类 第 $5 版 :生成 器 表达 式 


简单 的 生成 器 函数 ， 如 前 面 的 Sentence 类 中 使 用 的 那个 〈 见 示例 14-7) ， 可 以 替换 成 生 
成 器 表达 式 。 

生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 : 不 会 迫切 地 构建 列表 ， 而 是 返回 一 个 生成 
器 ， 按 需 惰性 生成 元 素 。 也 就 是 说 ， 如 果 列 表 推 导 是 制造 列表 的 工厂 ， 那 么 生成 器 表达 式 
就 是 制造 生成 器 的 工厂。 

示例 14-8 演示 了 一 个 简单 的 生成 器 表达 式 ， 并 且 与 列表 推导 做 了 对 比 。 


示例 14-8 ” 先 在 列表 推导 中 使 用 gen_AB 生成 器 函数 ， 然 后 在 生成 器 表达 式 中 使 用 









































>>> def gen AB(): #@ 
uae print('start') 
yield 'A' 
print( ‘continue’ ) 
yield 'B' 
print('end.') 


>>> resi = [x*3 for x in gen AB()] #@ 
start 
continue 
end. 
>>> for i in resi: # © 
print('-->', i) 
--> AAA 
--> BBB 
>>> res2 = (x*3 for x in gen AB()) # @ 
>>> res2 # 
<generator object <genexpr> at 0x10063c240> 
>>> for i in res2: # 
print('-->', i) 


continue 
--> BBB 
end. 








@ gen _AB 函数 与 示例 14-6 中 的 一 样 。 


O 列表 推导 迫切 地 迭 代 gen_AB() 函数 生成 的 生成 器 对 象 产 出 的 元 素 : 'A' 和 'B'。 注 
意 ， 下 面 的 输出 是 start. continue 和 end.. 


O 这 个 For 循环 迭代 列表 推导 生成 的 rest 列表 。 


O 把 生成 器 表达 式 返 回 的 值 赋值 给 res2。 只 需 调 用 gen_AB() 函数 ， 虽 然 调用 时 会 返回 
一 个 生成 器 ， 但 是 这 里 并 不 使 用 。 











O res2 是 一 个 生成 器 对 象 。 


O 只 有 for HAGE res2 时 ，gen_AB 函数 的 定义 体 才 会 真正 执行 。for 循环 每 次 迭代 
时 会 隐 式 调用 next(res2)， 前 进 到 gen_AB 函数 中 的 下 一 个 yield 语句 。 注 
意 ，gen_AB 函数 的 输出 与 for 循环 中 print 函数 的 输出 夹杂 在 一 起 。 


可 以 看 出 ， 生 成 器 表达 式 会 产 出 生成 器 ， 因 此 可 以 使 用 生成 器 表达 式 进 一 步 减少 
Sentence 类 的 代码 ， 如 示例 14-9 所 示 。 











示例 14-9 ”sentence_genexp.py: 使 用 生成 器 表达 式 实现 Sentence 类 





import re 
import reprlib 


RE_WORD = re.compile('\w+') 


class Sentence: 


def _ init__(self, text): 
self.text = text 


def _ repr_ (self): 
return 'Sentence(%s)' % reprlib.repr(self.text) 


def _ iter _ (self): 
return (match.group() for match in RE_WORD.finditer(self.text)) 














与 示例 14-7 唯一 的 区 别 是 iter 方法 ， 这 里 不 是 生成 器 函数 了 (没有 yield) ， 而 
是 使 用 生成 器 表达 式 构建 生成 器 ， 然 后 将 其 返回 。 不 过 ， 最 终 的 效果 一 样 : 调用 
_iter_ 方法 会 得 到 一 个 生成 器 对 象 。 


生成 器 表达 式 是 语法 糖 : 完全 可 以 蔡 换 成 生成 器 函数 ， 不 过 有 时 使 用 生成 器 表达 式 更 便 
利 。 下 一 说 明生 成 器 表达 式 的 用 途 。 
































14.7 何 时 使 用 生成 器 表达 式 


在 示例 16 中 ， 为 了 实现 Vector 类 ， 我 用 了 几 个 生成 器 表达 

Ty ~ __hash__. __abs_. anels, angles, format, _add_ 和 mul __ 
PERAE 个 生成 器 表达 式 。 在 这 些 方法 中 使 用 列表 推导 也 行 ， 不 过 立即 返回 的 列表 要 
使 用 更 多 的 内 存 。 


通过 示例 14-9 可 知 ， 生 成 器 表达 式 是 创建 生成 器 的 简洁 句法 ， 这 样 无 需 先 定义 函数 再 调 
用 。 不 过 ， 生 成 器 函数 灵活 得 多 ， 可 以 使 用 多 个 语句 实现 复杂 的 逻辑 ， 也 可 以 作为 协 程 
使 用 (参见 第 16 章 ) 。 


遇 到 简单 的 情况 时 ， 可 以 使 用 生成 器 表达 式 ， 因 为 这 样 扫 一 眼 就 知道 代码 的 作用 ， 如 
Vector 类 的 示例 所 示 。 


根据 我 的 经 验 ， 选 择 使 用 哪 种 句法 很 容易 判断 : 如 采 生 成 器 表 运 却 要 分 成 多 行 写 ， 我 倾向 
定义 生成 器 函数 ， 以 便 提 高 可 读 性 。 此 外 ， 生 成 器 函数 有 名 称 ， 因 此 可 以 重用 。 


A 句法 提示 


如 果 函 数 或 构造 方法 只 有 一 个 参数 ， 传 入 生成 器 表达 式 时 不 用 写 一 对 调用 函数 的 括 

号 ， 再 写 一 对 括号 围 住 生 成 器 表达 式 ， 只 写 一 对 括号 就 行 了 ， 如 示例 10-16 中 
_mul__ 方法 对 Vector 构造 方法 的 调用 ， 转 摘 如 下 。 然 而 ， 如 果 生 成 器 表达 式 后 面 

还 有 其 他 参数 ， 那 么 必须 使 用 括号 围 住 ， 和 否则 会 抛 出 SyntaxError 异常 : 
















































































def _mul_ (self, scalar): 
if isinstance(scalar, numbers.Real): 
return Vector(n * scalar for n in self) 


else: 
return NotImplemented 





目前 所 见 的 Sentence 类 示例 说 明了 如 何 把 生成 器 当 作 典型 的 迭代 器 使 用 ， 即 从 集合 中 获 
取 元 素 。 不 过 ， 生 成 器 也 可 用 于 生成 不 受 数据 源 限制 的 值 。 下 一 菠 会 举例 说 明 。 





14.8” 男 一 个 示例 : 等 差 数 列 生成 器 


典型 的 迭代 器 模式 作用 很 简单 一 一 遍历 数据 结构 。 不 过 ， 即 便 不 是 从 集合 中 获取 元 素 ， 而 
是 获取 序列 中 即时 生成 的 下 一 个 值 时 ， 也 用 得 到 这 种 基于 方法 的 标准 接口 。 例 如 ， 内 置 的 
range 函数 用 于 生成 有 穷 整数 等 差 数 列 (Arithmetic Progression, 

AP) , itertools.count 函数 用 于 生成 无 穷 等 差 数 列 。 


| itertools.count 函数 ， 本 节 探 讨 如 何 生 成 不 同 数字 类 型 的 有 穷 等 差 数 
列 。 


下 面 我 们 在 控制 台中 对 稍 后 实现 的 ArithmeticProgression 类 做 一 些 测试 ， 如 示例 14- 
10 所 示 。 这 里 ， 构 造 方法 的 签名 是 ArithmeticProgression(begin，step[， 

end]). range() 函数 与 这 个 ArithmeticProgression 类 的 作用 类 似 ， 不 过 签名 是 
range(start，stop[，step])。 我 选择 使 用 不 同 的 签名 是 因为 ， 创 建 等 差 数 列 时 必须 
HEA (step) ， 而 末 项 Cend) 是 可 选 的 。 我 还 把 参数 的 名 称 由 start/stop 改 成 了 
begin/end， 以 明确 表明 签名 不 同 。 在 示例 14-10 里 的 每 个 测试 中 ， 我 都 调用 了 list() 
函数 ， 用 于 查看 生成 的 值 。 


示例 14-10 演示 ArithmeticProgression 类 的 用 法 







































































>>> ap = ArithmeticProgression(@, 1, 3) 

>>> list(ap) 

[@, 1, 2] 

>>> ap = ArithmeticProgression(1, .5, 3) 

>>> list(ap) 

[1.0, 1.5, 2.0, 2.5] 

>>> ap = ArithmeticProgression(@, 1/3, 1) 

>>> list(ap) 

[0.0, @.3333333333333333, 0.6666666666666666 ] 

>>> from fractions import Fraction 

>>> ap = ArithmeticProgression(@, Fraction(1, 3), 1) 
>>> list(ap) 

[Fraction(@, 1), Fraction(1, 3), Fraction(2, 3)] 

>>> from decimal import Decimal 

>>> ap = ArithmeticProgression(@, Decimal('.1'), .3) 
>>> list(ap) 

[Decimal('@.0@'), Decimal('@.1'), Decimal('@.2')] 


注意 ， 在 得 到 的 等 差 数列 中 ， 数 字 的 类 型 与 begin 或 step 的 类 型 一 致 。 如 果 需 要 ， 会 根 
据 Python 算术 运算 的 规则 强制 转换 类 型 。 在 示例 14-10 中 ， 有 int、float、Fraction 
和 Decimal 数字 组 成 的 列表 。 


示例 14-11 列 出 的 是 ArithmeticProgression 类 的 实现 。 


























示例 14-11 ArithmeticProgression 类 





class ArithmeticProgression: 





def init__(self, begin, step, end=None): © 
self.begin = begin 
self.step = step 
self.end = end # None -> 无 穷 数 列 





def _iter (self): 
result = type(self.begin + self.step)(self.begin) @ 
forever = self.end is None © 
index = @ 
while forever or result < self.end: @ 
yield result © 
index += 1 
result = self.begin + self.step * index © 











O init 方法 需要 两 个 参数 : begin 和 step. end 是 可 选 的 ， 如 果 值 是 None， 那 么 
生成 的 是 无 穷 数列 。 


(2) a TE self .begin 赋值 给 result， 不 过 会 先 强制 转换 成 前 面 的 加 法 算式 得 到 的 类 
型 。 






































python 2 内 置 了 coerce() 函数 ， 不 过 Python 3 没有 内 置 。 开 发 者 觉得 没 必要 内 置 ， 因 为 算术 运算 符 会 隐 式 应 用 数值 
强制 转换 规则 。 所 以 ， 为 了 让 数列 的 首 项 与 其 他 项 的 类 型 一 样 ， 我 能 想到 最 好 的 方式 是 ， 先 做 加 法 运算 ， 然 后 使 用 计 
算 结果 的 类 型 强制 转换 生成 的 结果 。 我 在 Python 邮件 列表 中 间 了 这 个 问题 ，Steven D'Aprano 给 出 了 妙 极 的 答复 
Chttps://mail. python. org/pipermail/python-list/2014-December/682651.html) 。 
















































































O 为 了 提高 可 读 性 ， 我 们 创建 了 forever 变量 ， 如 果 self.end 属性 的 值 是 None， 那 么 
forever 的 值 是 True， 因 此 生成 的 是 无 穷 数 列 。 


@ 这 个 循环 要 么 一 直 执 行 下 去 ， 要 勾当 result 大 于 或 等 于 self .end 时 结束 。 如 果 循 环 
退出 了 ， 那 么 这 个 函数 也 随 之 退出 。 


























O 生成 当前 的 result 值 。 
O 计算 可 能 存在 的 下 一 个 结果 。 这 个 值 可 能 永远 不 会 产 出 ， 因 为 while 循环 可 能 会 终 
iB; 





在 示例 14-11 中 的 最 后 一 行 ， 我 没有 直接 使 用 self. step 不 断 地 增加 result， 而 是 选择 
使 用 index 变量 ， 把 self.begin 与 self.step F index 的 乘积 相 加 ， 计 算 result 的 
各 个 值 ， 以 此 降低 处 理 浮 点 数 时 累积 效应 致 错 的 风险 。 


示例 14-11 中 定义 的 ArithmeticProgression 类 能 按 预期 那样 使 用 。 这 是 个 简单 的 示 
例 ， 说 明了 如 何 使 用 生成 器 函数 实现 特殊 的 __iter_ “方法 。 然 而， 如 果 一 个 类 只 是 为 了 
构建 生成 器 而 去 实现 __iter_ “方法 ， 那 还 不 如 使 用 生成 器 函数 。 毕 竟 ， 生 成 器 函数 是 制 
造 生 成 器 的 工厂 。 


示例 14-12 中 定义 了 一 个 名 为 aritprog_gen 的 生成 器 函数 ， 作 用 与 
ArithmeticProgression 类 一 样 ， 只 不 过 代码 量 更 少 。 如 果 把 
ArithmeticProgression 类 换 成 aritprog_gen 函数 ， 示 例 14-10 中 的 测试 也 都 能 通 


Aen 















































1 本 书 源码 仓库 Chttps://github.com/fluentpython/example-code) 中 的 14-it-generator/ 目录 里 包含 doctest， 以 及 一 个 
aritprog_runner.py 脚本 ， 用 于 测试 aritprog*.py 脚本 的 所 有 版 本 。 





























示例 14-12 aritprog gen 生成 器 函数 





def aritprog_gen(begin, step, end=None): 
result = type(begin + step)(begin) 
forever = end is None 
index = 6 
while forever or result < end: 
yield result 
index += 1 
result = begin + step * index 














示例 14-12 很 棒 ， 不 过 始终 要 记 住 ， 标 准 库 中 有 许多 现成 的 生成 器 。 下 一 节 会 使 用 
itertools 模块 实现 ， 那 个 版 本 更 棒 。 


使 用 itertools 模 块 生 成 等 夫 数 列 


cig .4 中 的 itertools 模块 提供 了 19 个 生成 器 函数 ， 结 合 起 来 使 用 能 实现 很 多 有 趣 
用 法 。 


例如 ，itertools.count 函数 返回 的 生成 器 能 生成 多 个 数 。 如 果 不 传 入 参 
数 ，itertools.count 函数 会 生成 从 零 开 始 的 整数 数列 。 不 过 ， 我 们 可 以 提供 可 选 的 
start 和 step 值 ， 这 样 实现 的 作用 与 aritprog_gen 函数 十 分 相似 : 












































>>> import itertools 

>>> gen = itertools.count(1, .5) 
>>> next(gen) 

1 

>>> next(gen) 

1.5 

>>> next(gen) 

2.0 

>>> next(gen) 

2.5 








然而 ，itertools .count 函数 从 不 停止 ， 因 此 ， 如 果 调 用 list(count()), Python 会 创 
建 一 个 特别 大 的 列表 ， 超 出 可 用 内 存 ， 在 调用 失败 之 前 ， 电 脑 会 疯狂 地 运转 。 


不 过 ，itertools.takewhile 函数 则 不 同 ， 它 会 生成 一 个 使 用 另 一 个 生成 器 的 生成 器 ， 
E a 因此 ， 可 以 把 这 两 个 函数 结合 在 一 起 使 用 ， 编 
写 下 述 代码 : 























>>> gen = itertools.takewhile(lambda n: n < 3, itertools.count(1, .5)) 


>>> list(gen) 
[1, 1.5, 2.0, 2.5] 





示例 14-13 利用 takewhile 和 count 函数 ， 写 出 的 代码 流畅 而 简短 。 


示例 14-13 aritprog_v3.py: 与 前 面 的 aritprog_gen 函数 作用 相同 


import itertools 


def aritprog gen(begin, step, end=None): 
first = type(begin + step) (begin) 
ap_gen = itertools.count(first, step) 
if end is not None: 
ap_gen = itertools.takewhile(lambda n: n < end, ap_gen) 
return ap_gen 

















注意 ， 示 例 14-13 中 的 aritprog gen 不 是 生成 器 函数 ， 因 为 定义 体 中 没有 yield 关键 
字 。 但 是 它 会 返回 一 个 生成 器 ， 因 此 它 与 其 他 生成 器 函数 一 样 ， 也 是 生成 器 工厂 函数 。 


示例 14-13 想 表 达 的 观点 是 ， 实 现 生成 器 时 要 知道 标准 库 中 有 什么 可 用 ， 和 否则 很 可 能 会 重 
新 发 明 轮 子 。 鉴 于 此 ， 下 一 节 会 介绍 一 些 现成 的 生成 器 函数 。 





























14.9 ”标准 库 中 的 生成 器 函数 


标准 库 提供 了 很 多 生成 器 ， 有 用 于 逐 行 迭 代 纯 文本 文件 的 对 象 ， 还 有 出 色 的 os.walk 函 
数 Chttps://docs.python.org/3/library/os.html#os.walk) 。 这 个 函数 在 遍历 目录 树 的 过 程 中 产 
出 文件 名 ， 因 此 递归 搜索 文件 系统 像 for 循环 那样 简单 。 


os .Walk 生成 器 函数 的 作用 令 人 赞叹 ， 不 过 本 节 专 注 于 通用 的 函数 : 参数 为 任意 的 可 和 迭 
代 对 象 ， 返 回 值 是 生成 器 ， 用 于 生成 选中 的 、 计 算出 的 和 重新 排列 的 元 素 。 在 下 述 几 个 表 
格 中 ， 我 会 概述 其 中 的 24 个 ， 有 些 是 内 置 的 ， 有 些 在 itertools 和 functools 模块 
中 。 为 了 方便 ， 我 按照 函数 的 高 阶 功能 分 组 ， 而 不 管 函 数 是 在 哪里 定义 的 。 





















































` PRAY REAREA TH TG Aa A RA ELE RE ROA 1S Bl FB AA, AERE 
概 响 一 遍 能 让 你 知道 有 什么 函数 可 用 。 


第 一 组 是 用 于 过 滤 的 生成 器 函数 : 从 输入 的 可 和 迭代 对 象 中 产 出 元 素 的 子 集 ， 而 且 不 修改 元 
素 本 身 。 本 章 前 面 的 14.8.1 节 用 过 itertools .takewhile 函数 。 与 takewhile 函数 一 

样 ， 表 14-1 中 的 大 多 数 函 数 都 接受 一 个 断言 参数 (predicate) 。 这 个 参数 是 个 布尔 函 

数 ， 有 一 个 参数 ， 会 应 用 到 输入 中 的 每 个 元 素 上 ， 用 于 判断 元 素 是 否 包含 在 输出 中 。 


表 14-1: 用 于 过 滤 的 生成 器 函数 


























模块 函数 说 明 
itertools | compress(it， 并 行 处 理 两 个 可 迭代 的 对 象 ， 如 果 selector_it 中 的 元 素 是 真 值 ， 


selector_it) 产 出 at 中 对 应 的 元 素 




















itertools | dropwhile(predicate, it) 处 理 it， 跳 过 predicate 的 计算 结果 为 真 值 的 元 素 ， 然 后 产 出 条 
F 的 各 个 元 素 ( 不 再 进一步 检查 ) 
















































































把 it 中 的 各 个 元 素 传 给 predicate， 如 果 predicate(item) 返 
a7. ii 


(A) |filter(predicate, it) 值 ， 那 么 产 出 对 应 的 元 素 ， 如 果 predicate 是 None, ABA Rj 
值 元 素 















































filterfalse(predicate， 与 filter 函数 的 作用 类 似 ， 不 过 predicate 的 逻辑 是 
it) 的 : predicate jk [a 假 值 时 产 出 对 应 的 元 素 





itertools 



































i islice(it, stop) 或 Poth it 的 切片 ， 作 用 类 似 于 s[:stop] X s[start:stop:step], Ait 
itertools|islice(it, start, stop, | it 可 以 是 任何 可 适 代 的 对 象 ， 而 且 这 个 函数 实现 的 是 惰性 操作 

















step=1) 























predicate 返回 真 值 时 产 出 对 应 的 元 素 ， 然 后 立即 停止 ， 不 再 继续 


itertools | takewhile(predicate, it) Ry 
KDA 











示例 14-14 在 控制 台中 演示 表 14-1 中 各 个 函数 的 用 法 。 








示例 14-14 ”演示 用 于 过 滤 的 生成 器 函数 
>>> def vowel(c): 
return c.lower() in ‘aeiou' 


>>> list(filter(vowel, 


['A', Marts 


'a'] 


'Aardvark')) 


>>> import itertools 


>>> list(itertools 
['r', ‘d', 'v', 'r 
['r', ‘d', 'v', 
>>> list(itertools 
['A', 'a'] 


>>> list(itertools. 
ha 


['A', E hae da 
>>> list(itertools 
['A', ‘a', Ea 


['v', 'a', 'r'] 
>>> list(itertools 
['a', 'd', 'a'] 


.takewhile(vowel, 


.filterfalse(vowel, 

os 'k'] 

>>> list(itertools. 
bai 


dropwhile(vowel, 
5 i ae 'k'] 


compress('Aardvark' 


] 


.islice( ‘Aardvark’, 
'd'] 
>>> list(itertools. 


islice('Aardvark', 


.islice('Aardvark', 


'Aardvark')) 


'Aardvark')) 


'Aardvark')) 


3 (1,0,1,1,0,1))) 
4)) 
4, 7)) 


1, 7, 2)) 





下 一 组 是 用 于 映射 的 生成 器 函数 : 在 输入 的 单个 可 迭代 对 象 Cmap All starmap 函数 处 理 
多 个 可 友 代 的 对 象 ) 中 的 各 个 元 素 上 做 计算 ， 
会 从 输入 的 可 迭代 对 象 中 的 各 个 元 素 中 产 出 





























然后 返回 结果 。 了 并 表 14-2 中 的 生成 器 函数 
一 个 元 素 。 如 果 输 入 来 自 多 个 可 迭代 的 对 象 ， 








第 一 个 可 和 代 的 对 象 到 头 后 就 停止 输出 。 


了 ?这 里 所 说 的 “映射 "与 字 

















没有 关系 ， 而 与 内 








LAY) map 函数 有 关 。 




















表 14-2: 用 于 映射 的 生成 器 函数 










































































































































































模块 函数 说 明 
itertools | accumulate(it， 产 出 累积 的 总 和 ; 如 果 提供 了 func, 那么 把 前 两 个 元 素 传 给 它 已 ， 然 后 把 
| [func]) 计算 结果 和 下 一 个 元 素 传 给 它 ， 以 此 类 推 ， 最 后 产 出 结果 
(AB) enumerate(iterable, 产 出 由 两 个 元 素 组 成 的 元 组 ， 结 构 是 (index, item), # 中 index 从 
start=6) start 开始 计数 ，item 则 从 iterable 中 获取 

(内 置 ) |map(func, itd, 把 it 中 的 各 个 元 素 传 给 func， 产 出 结果 ; 如果 传 入 N 个 可 迭代 的 对 象 ， 

~ |[it2, ..., itN]) 那么 func 必须 能 接受 W 个 参数 ， 而 且 要 并 行 处 理 各 个 可 迭代 的 对 象 
ae etane do | 把 it 中 的 各 个 元 素 传 给 func， 产 出 结果 ;和 输入 的 可 迁 代 对 象 应 该 产 出 可 
itertools|starmap(func, it) 和 迭代 的 元 素 iit， 然 后 以 func(*iit) 这 种 形式 调用 func 








my 


示例 14-15 演示 itertools.accumulate 函数 的 几 个 用 法 。 


示例 14-15 演示 itertools.accumulate 生成 器 函数 





>>> sample = [5, 4, 2, 8, 7, 6, 3, ©, 9, 1] 

>>> import itertools 

>>> list(itertools.accumulate(sample)) # © 

[5, 9, 11, 19, 26, 32, 35, 35, 44, 45] 

>>> list(itertools.accumulate(sample, min)) # @ 

[5, 4, 2, 2, 2, 2, 2, @, ©, @] 

>>> list(itertools.accumulate(sample, max)) # © 

[5, 5, 5, 8, 8, 8, 8, 8, 9, 9] 

>>> import operator 

>>> list(itertools.accumulate(sample, operator.mul)) #@ 
[5, 20, 40, 320, 2240, 13440, 40320, ©, ©, ©] 

>>> list(itertools.accumulate(range(1, 11), operator .mul)) 
[1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800] # © 





@ 计算 总 和 。 

四 计算 最 小 值 。 

@ 计算 最 大 值 。 

O 计算 乘积 。 

加 从 1! 到 16!， 计 算 各 个 数 的 阶乘 。 

表 14-2 中 剩余 函数 的 演示 如 示例 14-16 所 示 。 
示例 14-16 ”演示 用 于 映射 的 生成 器 函数 








>>> list(enumerate('albatroz', 1)) # © 


[(1, ‘a'), (2, '1'), (3, 'b'), (4, 'a'), (5, 't'), (6, 'r'), (7, 'o'), (8, 


>>> import operator 
>>> list(map(operator.mul, range(11), range(11))) # @ 
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100] 
>>> list(map(operator.mul, range(11), [2, 4, 8])) #0 
[e, 4, 16] 
>>> list(map(lambda a, b: (a, b), range(11), [2, 4, 8])) #@ 
[(@, 2), (1, 4), (2, 8)] 
>>> import itertools 
>>> list(itertools.starmap(operator.mul, enumerate('albatroz', 1))) # © 
['a', 'll', 'bbb', ‘aaaa', ‘ttttt', 'rrrrrr', ‘ooo0000', 'zzzzzzzz' | 
>>> sample = [5, 4, 2, 8, 7, 6, 3, ©, 9, 1] 
>>> list(itertools.starmap(lambda a, b: b/a, 
wis enumerate(itertools.accumulate(sample), 1))) # O 
[5. 0, 4.5, 3.6666666666666665, 4.75, 5.2, 5.333333333333333, 
5.0, 4.375, 4.888888888888889, 4.5] 


'z')] 











@ 从 1 开始 ， 为 单词 中 的 字母 编号 。 








四 从 8 到 18， 计 算 各 个 整数 的 平方 。 


O 计算 两 个 可 迭代 对 象 中 对 应 位 置 上 的 两 个 元 素 之 积 ， 元 素 最 


后 就 停止 


O 作用 等 同 于 内 置 的 zip 函数 。 
根据 字母 所 在 的 位 置 ， 把 字母 重复 相应 的 次 数 。 
O 计算 平均 值 。 


加 从 1 开始 ， 


接 下 来 这 


























表 14-3: 合并 多 个 可 和 迭代 对 象 的 生成 器 函数 





模块 





少 的 那个 可 迭代 对 象 到 头 


组 是 用 于 合并 的 生成 器 函数 ， 这 些 函数 都 从 输入 的 多 个 可 迭代 对 象 中 产 出 元 
素 。chain fll chain.from_iterable 按 顺 序 〈 一 个 接 一 个 ) 处 到 
product, zip 和 zip _ longest 并 行 处 到 




















输入 的 可 和 人 代 对 象 ， 而 


输入 的 各 个 可 迭代 对 象 。 如 表 14-3 所 示 。 


说 日 





itertools 


itertools 


chain(it1, 


chain.from_iterable(it) 








着 连接 在 一 起 








产 出 it 生成 的 各 个 可 迭代 对 象 中 的 元 素 ， 


出 it1 中 的 所 有 元 素 ， 然 后 产 出 it2 中 的 所 有 元 素 ， 











以 此 类 推 ， 

















至 个 接 至 个 ”无 颖 连接 在 














一 起 ;， it 应 该 产 出 可 和 迭代 的 元 素 ， 例 如 本 渤 代 的 对 象 列表 





itertools 


(AB) 


product(it1, 
repeat=1) 


zip(it1, 








计算 笛 卡 儿 积 : 从 输入 
个 元 素 组 成 的 元 组 ， 与 
时 多少 次 输入 的 可 





























并 行 从 输入 的 各 个 可 六 


元 组 ， 只 要 有 个 可 3 


























的 各 个 可 迭代 对 象 中 获取 元 素 ， 
REH for 循环 效果 一 样 ; 
RITZ 


合并 成 
repeat 指明 重复 


























必 对 象 中 获取 元 素 ， 产 出 
民 的 对 象 到 头 了 ， 就 默默 





个 元 素 组 成 的 
也 停止 














itertools 





示例 14-17 展示 itertools. chain 和 zip 生成 器 函数 及 其 同胞 的 用 法 


zip_longest(it1, 
itN, fillvalue=None) 





PRI ALAN i 
数 ” 附 注 栏 介 











并 行 从 输入 的 各 个 可 i 
元 组 ， 等 到 最 长 的 可 
fillvalue 填充 














e i = fastener 或 zipper 〈 拉 链 ， 与 ZP 压缩 没有 关系 ) 。 

















必 对 象 中 获取 元 素 ， 产 出 由 X 个 元 素 组 成 的 
上 对 象 到 头 后 才 停止 ， 空 缺 的 值 使 















































。 再 次 提醒 ，zip 
“出 色 的 zip ek 





过 zip fll itertools.zip longest 函数 。 


示例 14-17 ”演示 用 于 合并 的 生成 器 函数 





>>> list(itertools.chain('ABC', range(2))) #@ 


['A', a Bess "Cc! 


» @, 1] 


>>> list(itertools.chain(enumerate('ABC'))) #@ 


[(@, 'A'), (1, 'B'), (2, 'C')] 

>>> list(itertools.chain.from_iterable(enumerate('ABC'))) # © 
[@, 'A', 1, 'B', 2, 'C'] 

>>> list(zip('ABC', range(5))) #@ 

[('A', 6)， ('B', 1), ('C', 2)] 

>>> list(zip('ABC', range(5), [10, 20, 30, 40])) #6 

[('A', ©, 10), ('B', 1, 20), ('C', 2, 30)] 

>>> list(itertools.zip longest('ABC', range(5))) # O 

[('A', @), ('B', 1), ('C', 2), (None, 3), (None, 4)] 

>>> list(itertools.zip longest('ABC', range(5), fillvalue='?')) #@ 
[('A', @), ('B', 1), ('C', 2), ('?', 3), ('?', 4)] 


@ 调用 chain RUNE KAEA WARE Se PIE OMT RR o 
四 如 果 只 传 入 一 个 可 和 迭代 的 对 象 ， 那 么 chain 函数 没什么 用 。 


© {HÆ chain. from_iterable 函数 从 可 迭代 的 对 象 中 获取 每 个 元 素 ， 然 后 按 顺 序 把 元 
素 连 接 起 来 ， 前 提 是 各 个 元 素 本 身 也 是 可 和 迭代 的 对 象 。 


O zip 常用 于 把 两 个 可 和 迭代 的 对 象 合并 成 一 系列 由 两 个 元 素 组 成 的 元 组 。 


@ zip 可 以 并 行 处 理 任意 数量 个 可 和 帮 代 的 对 象 ， 不 过 只 要 有 一 个 可 迭代 的 对 象 到 头 了 ， 
生成 器 就 停止。 


@ itertools.zip_longest 函数 的 作用 与 zip 类 似 ， 不 过 输入 的 所 有 可 和 迭代 对 象 都 会 
处 理 到 头 ， 如 果 需 要 会 填充 None. 


@ fillvalue 关键 字 参 数 用 于 指定 填充 的 值 。 
itertools.product 生成 器 是 计算 笛 卡 儿 积 的 惰性 方式 ;在 2.2.3 节 ， 我 们 在 多 个 for 
子 句 中 使 用 列表 推导 计算 过 笛 卡 儿 积 。 此 外 ， 也 可 以 使 用 包含 多 个 for 子 句 的 生成 器 表 
达 式 ， 以 惰性 方式 计算 笛 卡 儿 积 。 示 例 14-18 演示 itertools.product 函数 的 用 法 。 


示例 14-18 ”演示 itertools.product 生成 器 函数 
































































































































>>> list(itertools.product('ABC', range(2))) # © 

[('A', @), ('A', 1), ('B', ©), ('B', 1), ('C', @), ('C', 1)] 

>>> suits = 'spades hearts diamonds clubs'.split() 

>>> list(itertools.product('AK', suits)) #@ 

[('A', 'spades'), ('A', ‘'hearts'), ('A', 'diamonds'), ('A', ‘clubs'), 
('K', ‘'spades'), ('K', ‘hearts'), ('K', 'diamonds'), ('K', ‘clubs')] 
>>> list(itertools.product('ABC')) # © 

[('A',), ('B',), ('C',)] 

>>> list(itertools.product('ABC', repeat=2)) # @ 

[CA’, 'A'), ('A', 'B'), (‘A's 'C'), ('B', 'A'), ('B', 'B'), 

(B 'C'), ('C', 'A'), ('C', 'B'), ('C', 'C')] 

>>> list(itertools.product(range(2), repeat=3)) 

[(@, ©, ©), (©, ©, 1), (©, 1, ©), (@, 1, 1), (1, ©, @), 

(1, ©, 1), (1, 1, @), (1, 1, 1)] 

>>> rows = itertools.product('AB', range(2), repeat=2) 

>>> for row in rows: print(row) 





CA‘, ð, 'A', 

('A', ©, 'B', @) 
('A', ©, 'B', 1) 
(‘A', 1, 'A', @) 
('A', 1, 'A', 1) 
('A', 1, 'B', @) 
('A', 1, 'B', 1) 
('B', ©, 'A', @) 
('B', ©, 'A', 1) 
('B', ©, 'B', @) 
('B', ©, 'B', 1) 
('B', 1, 'A', @) 
('B', 1, 'A', 1) 
('B', 1, 'B', @) 
('B', 1, 'B', 1) 

















@ 三 个 字符 的 字符 串 与 两 个 整数 的 值 域 得 到 的 笛 卡 儿 积 是 六 个 元 组 (因为 3 * 2 等 于 
6) 


o 





O 两 张 牌 CAKO 与 四 种 花色 得 到 的 笛 卡 儿 积 是 八 个 元 组 。 


O 如 果 传 入 一 个 可 和 迭代 的 对 象 ，product 函数 产 出 的 是 一 系列 只 有 一 个 元 素 的 元 组 ， 不 
是 特别 有 用 。 


@ repeat=N 关键 字 参 数 告诉 product 函数 重复 N 次 处 理 输入 的 各 个 可 迭代 对 象 。 
有 些 生 成 器 函数 会 从 一 个 元 素 中 产 出 多 个 值 ， 扩 展 输入 的 可 迭代 对 象 ， 如 表 14-4 所 示 。 
表 14-4: 把 输入 的 各 个 元 素 扩展 成 多 个 输出 元 素 的 生成 器 函数 









































模块 函数 说 明 


itertools | combinations(it, out_len) E it 产 出 的 out_len 个 元 素 组 合 在 一 起 ， 然后 产 出 























combinations with replacement(it, 把 it 产 出 的 out_len 个 元 素 组 合 在 一 起 ， 然 后 产 出 ， 包 
out_len) 含 相 同 元 素 的 组 合 





itertools 








itertools | count(start=0, step=1) 从 start 开始 不 断 产 出 数字 ， 按 step 指定 的 步 幅 增加 

















et 从 it 中 产 出 各 个 元 素 ， 存 储 各 个 元 素 的 副本 ， 然 后 按 顺 
i 序 重复 不 断 地 产 出 各 个 元 素 








把 out_len 个 it 产 出 的 元 素 排列 在 一 起 ， 然 后 产 出 这 些 
itertools | permutations(it, out_len=None) 排列 ; out len 的 默认 值 等 于 len(list(it)) 























itertools | repeat(item, [times]) ER AS Wr hh) 出 指定 的 元 素 ， 除非 提供 times, 指定 次 数 














itertools 模块 中 的 count 和 repeat 函数 返回 的 生成 器 “无 中 生 有 ”: 这 两 个 函数 都 不 
接受 可 迭代 的 对 象 作为 输入 。14.8.1 节 见 过 itertools.count MAX. cycle 生成 器 会 备 
份 输入 的 可 和 迭代 对 象 ， 然 后 重复 产 出 对 象 中 的 元 素 。 示 例 14-19 演示 count. repeat 和 
cycle 的 用 法 。 











示例 14-19 演示 count. repeat 和 cycle 的 用 法 


>>> ct = itertools.count() # © 
>>> next(ct) #@ 


>>> next(ct), next(ct), next(ct) # © 

(1, 2, 3) 

>>> list(itertools.islice(itertools.count(1, .3), 3)) #@ 
[1, 1.3, 1.6] 

>>> cy = itertools.cycle('ABC') # O 

>>> next(cy) 


>>> list(itertools.islice(cy, 7)) # O 

['B', Gia 'A', "B', Pes 'A', 'B'] 

>>> rp = itertools.repeat(7) # Q 

>>> next(rp), next(rp) 

(7, 7) 

>>> list(itertools.repeat(8, 4)) # O 

[8, 8, 8, 8] 

>>> list(map(operator.mul, range(11), itertools.repeat(5))) # © 
[@, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50] 











@ 使 用 count 函数 构建 ct 生成 器 。 
@ 获取 ct 中 的 第 一 个 元 素 。 
O 不 能 使 用 ct 构建 列表 ， 因 为 ct 是 无 穷 的 ， 所 以 我 获取 接 下 来 的 3 个 元 素 。 
O 如 果 使 用 islice 或 takewhile 函数 做 了 限制 ， 可 以 从 count 生成 器 中 构建 列表 。 
© 使 用 'ABC ' 构建 一 个 cycle 生成 器 ， 然 后 获取 第 一 个 元 素 一 一 'A' 。 
@ 只 有 受到 islice 函数 的 限制 ， 才 能 构建 列表 ， 这 里 获取 接 下 来 的 7 个 元 素 。 
@ 构建 一 个 repeat 生成 器 ， 始 终 产 出 数字 7。 
© 传 入 times 参数 可 以 限制 repeat 生成 器 生成 的 元 素数 量 : 这 里 会 生成 4 次 数字 8。 
© repeat 函数 的 常见 用 途 : A map 函数 提供 固定 参数 ， 这 里 提供 的 是 乘 数 5。 
在 itertools 模块 的 文档 中 

(https://docs.python.org/3/library/itertools.html) , combinations, combinations_with_ 
和 permutations 生成 器 函数 ， 连 同 product 函数 ， 称 为 组 合 学 生成 器 (combinatoric 


generator) 。itertools.product 函数 和 其 余 的 组 合 学 函数 有 紧密 的 联系 ， 如 示例 14- 
20 所 示 。 









































示例 14-20 组 合 











学 生成 器 函数 会 从 输入 的 各 个 元 素 中 产 出 多 个 值 

















>>> list(itertools.combinations('ABC', 2)) #@ 

[C'A', 'B'), ('A', 'C'), ('B', 'C')] 

>>> list(itertools.combinations_with_replacement('ABC', 2)) #@ 

[CA 'A'), ('A', 'B'), (‘A's 'C'), ('B', 'B'), (BY, 'C'), ('C', 'C')] 

>>> list(itertools.permutations('ABC', 2)) # © 

[CA 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')] 

>>> list(itertools.product('ABC', repeat=2)) # @ 

[C’A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'B'), ('B', 'C'), 

CC, 'A'), ('C', 'B'), ('C', 'C')] 

@ ‘asc’ 中 每 两 个 元 素 Clen()==2) 的 各 种 组 合 ， 在 生成 的 元 组 中 ， 元 素 的 顺序 无 关 紧 
要 《可 以 视 作 集合 ) 。 

© 'ABC' 中 每 两 个 元 素 (len()==2) 的 各 种 组 合 ， 包 括 相 同 元 素 的 组 合 

@ asc’ 中 每 两 个 元 素 (len()==2) 的 各 种 排列 ， 在 生成 的 元 组 中 ， 元 素 的 顺序 有 重要 


义 。 


Ell 














@ 'ABC' 和 'ABC' (repeat=2 的 效果 ) 的 笛 卡 儿 积 。 





本 节 要 讲 的 最 后 一 组 生成 器 函数 用 于 产 yee 的 全 部 元 素 ， 





方式 重新 排列 。 其 中 有 两 个 函数 会 


itertools.tee. 


WA reversed iA nla Hoc, MR 





返回 多 个 生成 器 ， 





不 过 会 以 某 种 
让 别 是 itertools .groupby 和 


这 一 组 里 的 另 一 个 生成 器 函数 ， reversed 函数 ， 是 本 节 所 述 
的 函数 中 唯一 一 个 不 接受 可 和 迭代 的 对 象 ， 而 只 接受 序列 为 参数 的 函数 。 这 在 情理 之 中 ， 因 





























YA 有 序列 的 长 度 已 知 时 才能 工作 。 不 过 ， 这 个 函 


数 会 按 需 产 出 各 个 元 素 ， 因 此 无 需 创 建 反 转 的 副本 。 我 把 itertools.product 函数 划分 


为 用 于 合并 的 生成 器 ， 列 在 表 14-3 中 ， 因 为 那 一 组 函数 都 处 到 








14-5 中 的 生成 器 最 多 只 能 接受 一 个 可 从 代 的 对 象 。 
表 14-$: 用 于 重新 排列 元 素 的 生成 器 函数 














多 个 可 和 迭代 的 对 象 ， 而 表 














模块 


函数 





itertools | groupby(it,key=None) | p. 














Ly 
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HE, group 是 生成 器 ， 


i 形式 为 (key，group)， 


说 明 














其 中 key 是 分 组 标 





























8 分 组 里 的 元 素 





(AB) 





itertools|tee(it, n=2) 


从 后 向 前 ， 


reversed(seq) 
__reversed__ 


和 


IH 
Eni 





倒 








一 个 

















7 个 





代 对 象 中 的 元 素 


序 产 出 seq 中 的 元 素 ; 
特殊 方法 的 对 象 





seq 必须 是 序列 ， 或 者 是 实现 了 











生成 器 组 成 的 元 组 ， 每 个 生成 器 用 于 单独 产 出 输入 的 可 























示例 14-21 演示 itertools.groupby 函数 和 内 置 的 reversed 函数 的 用 法 。 注 


意 ，itertools.groupby 假定 输入 的 可 迭代 对 象 要 使 用 分 组 标准 排序 ， 即 使 不 排序 ， 




















少 也 要 使 用 指定 的 标准 分 组 各 个 元 素 。 


示例 14-21 itertools.groupby 函数 的 用 法 











>>> list(itertools.groupby('LLLLAAGGG')) # © 

[('L', <itertools. grouper object at @x102227cc@>), 

('A', <itertools. grouper object at @x102227b38>), 

('G', <itertools._ grouper object at @x102227b7@>) ] 

>>> for char, group in itertools.groupby('LLLLAAAGG'): # @ 
print(char, '->', list(group)) 


L -> [tk rj 


L', ES 'L'] 
A -> ['A', 'A',] 
G -> EG", 'G', 'G'] 


>>> animals ['duck', ‘eagle', 'rat', 'giraffe', ‘bear’, 

ay 'bat', ‘dolphin', ‘shark’, ‘lion'] 

>>> animals.sort(key=len) # © 

>>> animals 

['rat', 'bat', ‘duck', ‘bear', 'lion', ‘eagle’, ‘shark’, 

"giraffe', 'dolphin'] 

>>> for length, group in itertools.groupby(animals, len): #@ 
print(length, '->', list(group)) 


3 -> ['rat', 'bat'] 

4 -> ['duck', ‘bear’, 'lion'] 

5 -> ['eagle', 'shark'] 

7 -> ['giraffe', 'dolphin'] 

>>> for length, group in itertools.groupby(reversed(animals), len): # © 
print(length, '->', list(group)) 


7 -> ['dolphin', 'giraffe'] 

5 -> ['shark', ‘eagle'] 

4 -> ['lion', ‘bear’, 'duck'] 
3 -> ['bat', 'rat'] 








@ groupby 函数 产 出 (key, group_generator) 这 种 形式 的 元 组 。 


2 groupby PA ACK E HJ E a E REER: 这 里 在 外 层 使 用 for 循环 ， 内 层 使 用 列 


© 为 了 使 用 groupby 函数 ， 要 排序 输入 ; 这 里 按照 单词 的 长 度 排序 。 

O 再 次 遍历 key 和 group 值 对 ， 把 key 显示 出 来 ， 并 把 group 扩展 成 列表 。 

O 这 里 使 用 reverse EWA A A animals. 

这 一 组 里 的 最 后 一 个 生成 器 函数 是 iterator .tee， 这 个 函数 只 有 一 个 作用 : 从 输入 的 一 
个 可 迭代 对 象 中 产 出 多 个 生成 器 ， 每 个 生成 器 都 可 以 产 出 输入 的 各 个 元 素 。 产 出 的 生成 器 
可 以 单独 使 用 ， 如 示例 14-22 所 示 。 


示例 14-22 itertools.tee 函数 产 出 多 个 生成 器 ， 每 个 生成 器 都 可 以 产 出 输入 的 
各 个 元 素 












































>>> list(itertools.tee('ABC')) 

[<itertools._ tee object at @x10222abc8>, <itertools. tee object at @x10222ac0@8>] 
>>> gl, g2 = itertools.tee('ABC') 

>>> next(g1) 


>>> next(g2) 


>>> next(g2) 


>>> list(g1) 

[B c] 

>>> list(g2) 

['C'] 

>>> list(zip(*itertools.tee('ABC'))) 
[C'A', 'A'), ('B', "B'), ('C', 'C')] 











注意 ， 这 一 节 的 示例 多 次 把 不 同 的 生成 器 函数 组 合 在 一 起 使 用 。 这 是 这 些 函 数 的 优秀 特 
be 而 返回 的 结果 也 是 生成 器 ， 因 此 能 以 很 多 不 同 的 方式 结 
合 在 一 起 使 用 。 


既然 讲 到 了 这 个 话题 ， 那 就 介绍 一 下 Python 3.3 中 新 出 现 的 yield from 语句 。 这 个 语句 
的 作用 就 是 把 不 同 的 生成 器 结合 在 一 起 使 用 。 














14.10 Python 3.3 中 新 出 现 的 句法 : yield from 


如 果 生 成 器 函数 需要 产 出 男 一 个 生成 器 生成 的 值 ， 传 统 的 解决 方法 是 使 用 髓 套 的 for 循 
环 。 


例如 ， 下 面 是 我 们 自己 实现 的 chain 生成 器 : 18 












































8 标准 库 中 的 itertools.chain 函数 是 使 用 C 语言 编写 的 。 





>>> def chain(*iterables): 
for it in iterables: 
for i in it: 
yield i 


>>> s = 'ABC' 

>>> t = tuple(range(3)) 
>>> list(chain(s, t)) 
['A', 'B', "C's 6， 1， 2] 











chain Æ pi ait R BEER LE HCAS RU BY EY 4 PS IS RE. FE, “PEP 380 一 
Syntax for Delegating to a Subgenerator” (https://www.python.org/dev/peps/pep-0380/) 引入 了 
一 个 新 句法 ， 如 下 述 控制 台中 的 代码 清单 所 示 : 

















>>> def chain(*iterables): 
for i in iterables: 
yield from i 


>>> list(chain(s, t)) 
['A', 'B', "G; ð, 1, 2] 








可 以 看 出 ，yield from i WERE T AEH for 循环 。 在 这 个 示例 中 使 用 yield from 
是 对 的 ， 而 且 代 码 读 起 来 更 顺畅 ， 不 过 感觉 更 像 是 语法 糖 。 除 了 代 蔡 循环 之 外 ，yield 
from 还 会 创建 通道 ， 把 内 层 生成 器 直接 与 外 层 生 成 器 的 客户 端 联系 起 来 。 把 生成 器 当成 


























协 程 使 用 时 ， 这 个 通道 特别 重要 ， 不 仅 能 为 客户 端 代 码 生 成 值 ， 还 能 使 用 客户 端 代码 提供 











的 值 。 第 16 章 会 深入 讲解 协 程 ， 其 中 有 几 页 会 说 明 为 什么 yield from 不 只 是 语法 糖 而 
Be 


—{ yield from 之 后 ， 我 们 回 过 头 继续 复习 标准 库 中 善于 处 理 可 迭代 对 象 的 函数 。 














14.11 AIR IALA RK Be 


表 14-6 PAY eR EAS — PY IARI Re, PABA SRR. RHE pa ACM “VAY” RR 
R “Ate eh Beak A ee Be. ELSE, KM ES A E Bay DE 
functools.reduce 函数 实现 ， 内 置 是 因为 使 用 它们 便于 解决 常见 的 问题 。 此 外 ， 对 all 
和 any 函数 来 说 ， 有 一 项 重要 的 优化 措施 是 reduce 函数 做 不 到 的 : 这 两 个 函数 会 短路 
旦 确定 了 结果 就 立即 停止 使 用 迭代 器 ) 。 参 见 示 例 14-23 中 any 函数 的 最 后 一 个 测 
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K 14-6: TAARA, R eE KAME KI A E R 















































模块 函数 说 明 




















(AB) i it 中 的 所 有 元 素 都 为 真 值 时 返回 True, BURE False; all([]) 返 

























































































(AB) i 只 要 it 中 有 元 素 为 真 值 就 返回 True, GURE False; any([]) 返 
























































(内 置 ) | PEy= 返回 it 中 值 最 大 的 元 素 ，*key 是 排序 函数 ， 与 sorted 函数 中 的 一 样 ， 如 果 可 
”| [defaulit=]) 迭代 的 对 象 为 空 ， 返 回 default 

(内 置 ) | fkey='j 返回 it 中 值 最 小 的 元 素 ， "key 是 排序 函数 ， 与 sortea 函数 中 的 一 样 ， 如 果 可 
[default=]) 迭代 的 对 象 为 室 ， 返 回 default 














functools | reduce(func， 巴 前 两 个 元 素 传 给 func， 然 后 把 计算 结果 和 第 三 个 元 素 传 给 func， 以 此 类 
it, [initial]) | 推 ， 返 回 最 后 的 结果 ; 如 果 提供 了 initial， 把 它 当 作 第 一 个 元 素 传 入 


















































(内 置 ) it 中 所 有 元 素 的 总 和 ， 如 果 提 供 可 选 的 start， 会 把 它 加 上 计算 浮 点 数 的 加 
= 法 时 ， 可 以 使 用 math.fsum 函数 提高 精度 ) 
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参数 中 的 最 大 值 。 





* 也 可 以 像 这 样 调用 : max(arg1，arg2，...，[key=?])， 此 时 返 
































ua 























# 也 可 以 像 这 样 调用 : min(arg1，arg2，...，[key=?])， 此 时 返回 参数 中 的 最 小 值 。 
all 和 any 函数 的 操作 演示 如 示例 14-23 所 示 。 


示例 14-23 ”把 几 个 序列 传 给 all 和 any 函数 后 得 到 的 结果 





>>> all([1, 2, 3]) 
True 

>>> all([1, ©, 3]) 
False 

>>> all([]) 


True 

>>> any([1, 2, 3]) 
True 

>>> any([1, ©, 3]) 
True 

>>> any([@, 0.0]) 
False 

>>> any([]) 

False 

>>> g = (n for n in [6, 0.0, 7, 8]) 
>>> any(g) 

True 

>>> next(g) 

8 








10.6 节 更 为 深入 地 解释 过 functools .reduce 函数 。 


还 有 一 个 内 置 的 函数 接受 一 个 可 迭代 的 对 象 ， 返 回 不 同 的 值 一 -sorted。reversed 是 生 
成 器 函数 ， 与 此 不 同 ，sorted 会 构建 并 返回 真正 的 列表 。 上 毕竟 ， 要 读 取 输入 的 可 和 迭代 对 
象 中 的 每 一 个 元 素 才 能 排序 ， 而 且 排 序 的 对 象 是 列表 ， 因 此 sorted 操作 完成 后 返回 排序 
后 的 列表 。 我 在 这 里 提 到 sorted， 是 因为 它 可 以 处 理 任意 的 可 迭代 对 象 。 


ao ee 能 处 理 最 终 会 停止 的 可 迭代 对 象 。 否 则 ， 这 些 函 数 会 一 
直 收 集 元 素 ， 永 远 无 法 返回 结果 。 


下 面 ， 我 们 回 过 头 来 分 析 内 置 的 iter() 函数 ， 它 还 有 一 个 鲜 为 人 知 的 特性 没有 介绍 。 













































































14.12 PRA Hriter ek AW 

如 前 所 述 ， 在 Python 中 迭代 对 象 x 时 会 调用 iter(x). 

可 是 ，iter 函数 还 有 一 个 鲜 为 人 知 的 用 法 : 传 入 两 个 参数 ， 使 用 营 规 的 函数 或 任何 可 调 
用 的 对 象 创建 迭代 器 。 这 样 使 用 时 ， 第 一 个 参数 必须 是 可 调用 的 对 象 ， 用 于 不 断 调用 ( 没 
有 参数 ) ， 产 出 各 个 值 ， 第 二 个 值 是 哨 符 ， 这 是 个 标记 值 ， ee 

时 ， 触 发 迭代 器 抛 出 StopIteration 异常 ， 而 不 产 出 哨 符 


述 示例 展示 如 何 使 用 iter BUMS, EBA 1 点 为 止 : 





























14 需 要 在 这 个 示例 的 最 前 面 添加 一 句 : from random import randint。 一 一 编者 注 








>>> def d6(): 
return randint(1, 6) 


>>> d6 iter = iter(d6, 1) 

>>> d6é_iter 

<callable_ iterator object at 6Xx66666666629BE6A6> 
>>> for roll in d6_iter: 

print(rol11) 





WaAWBHe : 





注意 ， 这 里 的 iter 函数 返回 一 个 callable_iterator 对 象 。 示 例 中 的 for 循环 可 能 运 
行 特别 长 的 时 间 ， 不 过 肯定 不 会 打印 1， 因 为 1 是 哨 符 。 与 常规 的 迭代 器 一 样 ， 这 个 示例 
中 的 d6_iter 对 象 一 旦 耗 尽 就 没 用 了 。 如 果 想 重新 开始 ， 必 须 再 次 调用 iter(...), E 
新 构建 迭代 器 。 


内 置 函数 iter 的 文档 Chttps://docs.python. org/3/library/functions. html#iter) 中 有 个 实用 的 
例子 。 这 段 代 码 逐 行 读 取 文 件 ， 直 到 遇 到 空 行 或 者 到 达 文 件 末尾 为 止 ; 

















with open('mydata.txt') as fp: 
for line in iter(fp.readline, '\n'): 


process_line(line) 





























结束 本 章 之 前 ， 我 要 举 个 实用 的 例子 ， 说 明 如 何 使 用 生成 器 高 效 处 理 大 量 数据 。 


14.13 ”案例 AHS 在 数据 库 转 换 工 具 中 使 用 生成 器 


几 年 前 ， 我 在 BIREME 工作 ， 这 是 PAHO/WHO (Pan-American Health Organization/World 
Health Organization, 泛 美 卫生 组 织 /世界 卫生 组 织 ) 在 圣保罗 运营 的 一 家 数字 图 书馆 。 
BIREME 制作 的 众多 书目 数据 集中 包含 LILACS (Latin American and Caribbean Health 
Sciences index， 拉 美和 加 勒 比 地 区 健康 科学 索引 ) 和 SciELO (Scientific Electronic Library 
Online， 电 子 科学 在 线 图 书馆 ) ， 这 两 个 数据 库 完 整 索 引 了 这 一 地 区 发 布 的 科学 和 技术 作 


Ef 
HH o 


从 20 世纪 80 年 代 后 期 开始 ， 管 理 LILACS 的 数据 库 系 统 是 CDS/ISIS. 这 是 UNESCO 开 
发 的 非 关系 型 文档 数据 库 ， 后 来 为 了 在 GNU/Linux 服务 器 上 运行 ，BIREME 使 用 C 语言 
重 写 了 。 我 的 工作 之 一 是 探索 替代 方案 ， 把 LILACS 移植 到 现代 的 开源 文档 数据 库 〈 最 终 
还 要 移植 大 得 多 的 SciELO) ， 例 如 CouchDB 或 MongoDB。 


在 探索 的 过 程 中 ， 我 编写 了 一 个 Python 脚本 一 一 isis2json.py， 把 CDS/ISIS 文件 转换 成 适 
FA CouchDB 或 MongoDB 的 JSON 文件 。 起 初 ， 这 个 脚本 读 取 文件 的 是 CDS/ISIS & 
出 的 ISO-2709 格式 。 读 写 过 程 必须 采用 渐进 方式 ， 因 为 完整 的 数据 集 比 主 内 存 大 得 多 。 
= E for 循环 每 次 迭代 时 从 ,iso 文件 中 读 取 一 个 记录 ， 转 换 后 将 其 写 入 
.json 文件 。 


然而 ， 在 实际 操作 中 有 必要 让 isis2json.py 支持 CDS/ISIS 的 另 一 种 数据 格式 BIREME 
在 生产 环境 中 使 用 的 二 进 制 .mst 文件 ， 避 人 免 导出 为 SO-2709 格式 时 消耗 过 多 资源 。 


现在 我 遇 到 一 个 问题 : 用 来 读 取 ISO-2709 和 .mst 文件 的 库 提 供 的 API 差别 很 大 。 而 输出 
JSON 格式 的 循环 已 经 很 复杂 了 ， 因 为 这 个 脚本 要 接受 多 个 命令 行 选项 ， 每 次 输出 时 调整 
吉 构 。 在 同一 个 for 循环 中 使 用 两 个 不 同 的 API， 同 时 还 要 生成 JSON， 这 样 太 难 
上 管理 了 。 


解决 方法 是 隔离 读 取 逻 辑 ， 写 进 两 个 生成 器 函数 中 : 一 个 函数 支持 一 种 输入 格式 。 最 终 ， 
我 把 isis2json.py 脚本 分 成 了 四 个 函数 。 使 用 Python 2 编写 的 主 脚本 如 示例 A-5， 带 依赖 的 
完整 源码 在 GitHub 中 的 fluentpython/isis2json 仓库 里 
Chttps://github.com/fluentpython/isis2json) 。 


下 面 概览 这 个 脚本 的 结构 。 


































































































main 

main 函数 使 用 argparse 模块 读 取 命 令 行 选项 ， 用 于 配置 输出 记录 的 结构 。 根 据 输 
入 文件 的 扩展 名 ，main 函数 会 选择 一 个 合适 的 生成 器 函数 ， 逐 个 读 取 数 据 ， 然 后 产 出 记 
录 。 








iter_iso_records 


这 个 生成 器 函数 用 于 读 取 .iso 文件 〈 假 设 是 ISO-2709 格式 ) ， 有 两 个 参数 : 一 个 是 
文件 名 ; 另 一 个 是 isis json _type， 即 一 个 与 记录 结构 有 关 的 选项 。 在 这 个 函数 的 for 
循环 中 ， 每 次 迭代 读 取 一 个 记录 ， 然 后 创建 一 个 空 字典 ， 把 数据 填充 进 字 段 之 后 产 出 字 


























AN O 
iter_mst_records 


这 也 是 一 个 生成 器 函数 ， 用 于 读 取 mst HE. 15 阅读 isis2json.py 脚本 的 源码 后 你 会 
发 现 ， 这 个 函数 没有 iter_iso_records 函数 简单 ， 不 过 接口 和 整体 结构 是 相同 的 : 参 
数 是 文件 名 和 isis json_type, for 循环 每 次 迭代 时 构建 并 产 出 一 个 字典 ， 表 示 一 个 记 
录 。 


















































| 5 用 来 读 取 复 杂 的 mst 二 进 制 文件 的 库 其 实 是 用 Java 编写 的 ， 因 此 只 有 使 用 Jython 解释 器 2.5 或 以 上 版 本 执行 
| isis2json.py 脚本 才能 使 用 这 个 功能 。 详 情 参 见 仓库 里 的 README.rst 文件 
| Chttps://github.com/fluentpython/isis2json/blob/master/README.rst) 。 因 为 依赖 在 需要 使 用 的 生成 器 函数 中 导入 ， 所 以 即 
| 便 只 有 一 个 外 部 依赖 可 用 ， 这 个 脚本 仍 能 运行 。 
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write_json 


这 个 函数 把 记录 输出 为 JSON 格式 ， 而 且 一 次 输出 一 个 记录 。 它 的 参数 很 多 ， 其 中 第 
一 个 参数 Cinput_gen) 是 对 某 个 生成 器 函数 的 引用 : iter_iso_records 或 
iter_mst_records。write json 函数 的 主 for 循环 迭代 input_gen 引用 的 生成 器 产 
和 根据 命令 行 选 项 设 定 的 方式 处 理 ， 然 后 把 JSON 格式 的 记录 附加 到 输出 文件 


























我 利用 生成 器 函数 解 耦 了 读 逻 辑 和 写 逻 辑 。 当 然 ， 解 耦 二 者 最 简单 的 方式 是 ， 把 所 有 记录 
读 进 内 存 ， 然 后 写 入 硬盘 。 可 是 这 样 并 不 可 行 ， 因 为 数据 集 很 大 。 而 使 用 生成 器 的 话 ， 可 
以 交叉 读 写 ， 因 此 这 个 脚本 可 以 处 理 任 意 大 小 的 文件 。 


现在 ， 如 果 isis2json.py 脚本 需要 再 支持 一 种 输入 格式 ， 比 如 说 美国 国会 图 书馆 用 于 表示 
ISO-2709 格式 数据 的 MARCXML 文档 格式 ， 只 需 再 添加 一 个 生成 器 函数 ， 实 现 读 逻辑 ， 
而 复杂 的 write_json 函数 无 需 任 何 改动 。 

这 不 是 什么 尖端 科技 ， 可 是 通过 这 个 实例 我 们 看 到 了 生成 器 的 灵活 性 。 使 用 生成 器 处 理 数 
据 库 时 ， 我 们 把 记录 看 成 数据 流 ， 这 样 消耗 的 内 存量 最 低 ， 而 且 不 管 数 据 有 多 大 都 能 处 
理 。 只 要 管理 着 大 型 数据 集 ， 都 有 可 能 在 实践 中 找到 机 会 使 用 生成 器 。 


下 一 节 讨 论 和 暂时 要 跳 过 的 一 个 生成 器 特性 。 为 什么 要 跳 过 呢 ? 原因 如 下 。 










































































14.14 ”把 生成 器 当成 协 程 


Python 2.2 引入 了 yield 关键 字 实 现 的 生成 器 函数 ， 大 约 五 年 后 ，Python 2.5 实现 了 “PEP 
342 一 Coroutines via Enhanced Generators” Chttps://www.python.org/dev/peps/pep-0342/) 。 
这 个 提案 为 生成 器 对 象 添 加 了 额外 的 方法 和 功能 ， 其 中 最 值得 关注 的 是 .send() 方法 。 
5 .__next__() 方法 一 样 ，.send () 方法 致使 生成 器 前 进 到 下 一 个 yield 语句 。 不 
过 ，.send() 方法 还 允许 使 用 生成 器 的 客户 把 数据 发 给 自己 ， 即 不 管 传 给 .send() 方法 
什么 参数 ， 那 个 参数 都 会 成 为 生成 器 函数 定义 体 中 对 应 的 yield 表达 式 的 值 。 也 就 是 
说 ，.send() 方法 允许 在 客户 代码 和 生成 器 之 间 双 问 交 换 数据 。 而 . next () 方法 只 
允许 客户 从 生成 器 中 获取 数据 。 
这 是 一 项 重要 的 “改进 "， 其 至 改变 了 生成 器 的 本 性 : 像 这 样 使 用 的 话 ， 生 成 器 就 变 喘 为 协 
fe. TE PyCon US 2009 期 间 举 办 的 一 场 著 名 的 课程 中 
Chttp://www.dabeaz.com/coroutines/) , David Beazley (PJ AE Python 社区 中 在 协 程 方面 
最 多 产 的 作者 和 演讲 者 ) 提醒 道 : 

。 生 成 器 用 于 生成 供 迭 代 的 数据 

。 协 程 是 数据 的 消费 者 

。 为 了 避免 脑袋 炸 裂 ， 不 能 把 这 两 个 概念 混为一谈 

。 协 程 与 迭代 无 关 


。 注 意 ， 虽 然 在 协 程 中 会 使 用 yield PEMA, (FIX SIRE 16 



























































David Beazley 
“A Curious Course on Coroutines and Concurrency” 





16 摘 自 “A Curious Course on Coroutines and Concurrency” (http:/www.dabeaz.com/coroutines/Coroutines.pdf) 的 第 33 张 幻灯 
片 ， 题 为 “Keeping It Straight”. 











我 会 遵从 他 的 建议 ， 至 此 结束 本 章 〈 因 为 本 章 真正 讨论 的 是 兴 代 技术 〉 ， 而 不 涉及 把 生成 
器 当成 协 程 使 用 的 send 方法 和 其 他 特性 。 第 16 章 会 讨论 协 程 。 


14.15 ABZ 


Python i 语言 对 迭代 的 支持 如 此 深入 ， 因 此 我 经 常 说 ，Python 已 经 融合 (grok) 了 和 迭代 

器 。L7 Python 从 语义 上 集成 迭代 器 模式 是 个 很 好 的 例证 ， 说 明 设 计 模 式 在 各 种 编程 语言 中 
使 用 的 方式 并 不 相同 。 在 Python F, 站 己 动 手 实现 的 真 型 先 代 器 (如 示例 14-4 所 示 ) 没 
有 实际 用 途 ， 只 能 用 作 教学 示例 。 



























































| 17 根 据 新 黑客 字典 〈Jargon fie, http://catb.org/~esr/jargon/html/G/grok.html) , grok 的 意思 不 仅 是 学 会 了 新 知识 ， 还 要 充 
| 分 吸收 知识 ， 做 到 “人 剑 合 一 ”。 


本 章 中 编写 了 一 个 类 的 几 个 版 本 ， 用 于 读 取 内 容 可 能 很 多 的 文件 ， 并 迭代 里 面 的 单词 。 
为 用 了 生成 器 ， 所 以 在 重 构 的 过 程 中 ，Sentence 类 越 来 越 简短 ， 越 来 越 易 于 阅读 。 最 
终 ， 我 们 知道 了 生成 器 的 工作 原理 。 


后 来 ， 我 们 编写 了 一 个 用 于 生成 等 差 数 列 的 生成 器 ， 还 说 明了 如 何 利 用 itertools 模块 
做 简化 。 随 后 ， 概 览 了 标准 库 中 24 个 通用 的 生成 器 函数 。 


接着 ， 我 们 分 析 了 内 置 的 iter 函数 : 首先 说 明 ， 以 iter(o) 的 形式 调用 时 返回 的 是 返 
代 器 ; 之 后 分 析 ， 以 iter(func，sentinel) 的 形式 调用 时 ， 能 使 用 任何 函数 构建 迭代 
ae 6 


分 析 实 例 时 ， 我 将 明了 一 个 数据 库 转 换 工 具 的 实现 方式 ， 指 明 如 何 使 用 生成 器 函数 解 耘 读 
写 逻 辑 ， 如 何 高 效 处 理 大 型 数据 集 ， 以 及 如 何 轻易 支持 多 种 数据 输入 格式 。 


本 章 还 提 到 了 Python 3.3 中 新 出 现 的 yield from 句法 ， 还 有 协 程 。 这 里 只 对 二 者 做 了 简 
单 介绍 ， 本 书后 面 会 更 为 深入 地 讨论 。 






































14.16 ”延伸 阅读 


在 Python 语言 参考 手册 中 ,，“6.2.9. Yield 

expressions” (https://docs.python.org/3/reference/expressions.html#yieldexpr) 从 技术 层面 深 
入 说 明了 生成 器 。 定 义 生 成 器 函数 的 PEP 是 “PEP 255 一 Simple 

Generators” Chttps://www.python.org/dev/peps/pep-0255/) 。 








itertools 模块 的 文档 Chttps://docs.python.org/3/library/itertools.html) 写 得 很 棒 ， 包 含 大 
量 示 例 。 虽 然 那个 模块 里 的 函数 是 使 用 C 语言 实现 的 ， 不 过 文档 展示 了 如 何 使 用 Python 
实现 部 分 函数 ， 这 通常 要 利用 模块 里 的 其 他 函数 。 用 法 示例 也 很 好 ， 例 如 ， 有 一 个 代码 片 
段 说 明 如 何 使 用 accumulate 函数 计算 带 利 奶 的 分 期 还 款 ， 得 出 每 次 要 还 多 少 。 文 档 中 还 
A — ize “Itertools Recipes”(https://docs.python.org/3/library/itertools.html#itertools- 

recipes) ， 说 明 如 何 使 用 itertools 模块 中 的 现 有 函数 实现 额外 的 高 性 能 函数 。 


在 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 fig) 中 文 版 》 一 书 中 ， 第 4 
章 有 16 个 诀 罕 涵 盖 了 这 个 话题 ， 虽 然 角 度 不 同 ， 但 都 关注 实际 应 用 。 


“What's New in Python 3.3”( 人 参见 “PEP 380: Syntax for Delegating to a 
Subgenerator”, https://docs.python.org/3/whatsnew/3.3.html#pep-3 80-syntax-for-delegating-to-a- 
subgenerator) 通过 示例 说 明了 yield from 句法 。 本 书 16.7 节 和 16.8 节 还 会 讨论 这 个 名 
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如 果 你 对 文档 数据 库 感 兴趣 ， 想 进一步 了 解 14.13 节 的 背景 ， 可 以 阅读 我 发 布 在 Code4Lib 

Journal (涵盖 图 书馆 与 技术 交集 ) 上 的 论文 ， 题 为 “From ISIS to CouchDB: Databases and 

Data Models for Bibliographic Records” Chttp://journal.code4lib.org/articles/4893) ， 其 中 有 

一 节 对 isis2json.py 脚本 做 了 说 明 。 这 篇 论文 的 剩余 内 容 说 明文 档 数据 库 〈 如 CouchDB 和 

ee 的 方式 ， 以 及 为 什么 这 种 模型 比 关 系 模型 更 适合 用 于 
目 数 据 。 
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生成 器 函数 的 语法 糖 多 一 些 更 好 
在 设计 不 同 目的 的 控制 和 显示 设备 时 ， 设 计 师 需要 确认 它们 之 间 具 有 明显 差异 。 























Donald Norman 
《设计 心理 学 》 


在 编程 语言 中 ， 源 码 是 “控制 和 显示 设备 "”。 我 觉得 Python 设计 得 特别 好 ， 源 码 的 可 
读 性 通常 很 高 ， 好 像 伪 代码 一 样 。 可 是 ， 没 有 什么 是 完美 的 。Guido van Rossum 应 该 
遵从 Donald Norman 的 建议 (如 上 述 引 文 )， 引 入 新 的 关键 字 ， 用 于 定义 生成 器 水 
数 ， 而 不 该 继续 使 用 def。 其 实 ，“PEP 255 一 Simple 

Generators” (https://www.python.org/dev/peps/pep-0255/) 中 的 “BDFL 
Pronouncements” 一 节 已 经 提议 : 









































深 藏 于 定义 体 中 的 “yield” 语 句 不 足以 提醒 语义 发 生 了 重大 变化 。 


可 是 ，Guido 讨厌 引入 新 关键 字 ， 而 且 觉 得 这 项 提议 没有 说 服 力 ， 因 此 我 们 只 好 被 迫 
接受 def。 


沿用 函数 句法 定义 生成 器 会 导致 几 个 不 好 的 后 果 。 在 Poliz 等 人 发 布 的 试验 成 果 论 
文 “Python, the Full Monty: A Tested Semantics for the Python Programming Language”18 
中 ， 有 个 简单 的 生成 器 函数 示例 〈 这 篇 论文 的 4.1 节 ) : 























def f(): x=0 
while True: 
x t= 1 
yield x 








然后 ， 论 文 的 作者 指出 ， 我 们 无 法 通过 函数 调用 抽象 产 出 这 个 过 程 ( 如 示例 14-24 所 
AN) o 


示例 14-24 “ 这样 ) 似乎 能 简单 地 抽象 产 出 这 个 过 程 ”(Politz 等 人 ) 








def f(): 
def do_yield(n): 
yield n 
x=0 
while True: 
x += 1 
do_yield(x) 











如 果 调 用 示例 14-24 中 的 f()， 会 得 到 一 个 无 限 循环 ， 而 不 是 生成 器 ， 因 为 yield x 
键 字 只 能 把 最 近 的 外 层 函 数 变 成 生成 器 函数 。 虽 然 生 成 器 函数 看 起 来 像 函 数 ， 可 是 我 
们 不 能 通过 简单 的 函数 调用 把 职责 委托 给 另 一 个 生成 器 函数 。 与 此 相 比 ，Lua 语言 就 
没有 强加 这 一 限制 。 在 Lua 中 ， 协 程 可 以 调用 其 他 函数 ， 而 且 其 中 任何 一 个 函数 都 能 
把 职责 交 给 原来 的 调用 方 。 


Python 新 引入 的 yield from 句法 允许 生成 器 或 协 程 把 工作 委托 给 第 三 方 完成 ， 这 样 
MERRE for 循环 作为 变通 了 。 在 函数 调用 前 面 加 上 yield from 能 “解决 "示例 
14-24 中 的 问题 ， 如 示例 14-25 所 示 。 


示例 14-25 这样 才 能 简单 地 抽象 产 出 这 个 过 程 









































def f(): 
def do_yield(n): 
yield n 
xX = 0 
while Whe 
X += 
yield gee do_yield(x) 








沿用 def 声明 生成 器 犯 了 可 用 性 方面 的 错误 ， 而 Python 2.5 引入 的 协 程 (也 写成 包含 








yield 关键 字 的 函数 ) 把 这 个 问题 进一步 恶化 了 。 在 协 程 中 ，yield Why GHA) 出 
现在 赋值 i 天 名 的 右手 边 ， 因 为 yield 用 于 接收 客户 传 给 .Send() 方法 的 参数 。 正 如 
David Beazley 所 说 的 : 


尽管 有 一 些 相同 之 处 ， 但 是 生成 器 和 协 程 基本 上 是 两 个 不 同 的 概念 。19 


我 党 得 协 程 也 应 该 有 专用 的 关键 字 。 读 到 后 文 你 会 发 现 ， 协 程 经 常会 用 到 特殊 的 装饰 

器 ， 这 样 就 能 与 其 他 的 函数 区 分 开 。 可 是 ， 生 成 器 函数 不 常 使 用 装饰 器 ， 因 此 我 们 不 

看 有 没有 yield 关键 字 ， 以 此 判断 它 究 竟 是 普通 的 函数 ， 
完全 不 同 的 洪水 猛兽 。 


也 许 有 人 会 说 ， 这 么 做 是 为 了 在 不 增加 人 句法 的 前 提 下 支持 这 些 特性 ， 即 便 添加 额外 的 
句法， 也 只 是 “语法 糖 ”。 可 是 ， 如 果 能 让 不 同 的 特性 看 起 来 也 不 同 ， 那 么 我 更 喜欢 语 
法 糖 。Lisp 代码 难以 阅读 的 主要 原因 就 是 缺少 语法 糖 ， 这 也 导致 Lisp 语言 中 的 所 有 
结构 看 起 来 都 像 是 函数 调用 。 


生成 器 与 迭代 器 的 语义 对 比 
思考 欠 代 器 与 生成 器 之 间 的 关系 时 ， 至 少 可 以 从 三 方面 入 手 。 
一 方面 是 接口 。Python 的 迭代 器 协议 定义 了 两 个 方法 :next _ 和 iter 


RAE RS CS. HET 
以 得 知 ， 内 置 的 enumerate() 函数 创建 的 对 象 是 迭代 器 : 





























































































































>>> from collections import abc 
>>> e = enumerate('ABC') 

>>> isinstance(e, abc.Iterator) 
True 














第 二 方面 是 实现 方式 。 从 这 个 角度 来 看 ， 生 成 器 这 种 Python 语言 结构 可 以 使 用 两 种 
方式 编写 : 含有 yield 关键 字 的 函数 ， 或 者 生成 器 表达 式 。 调 用 生成 器 函数 或 者 执 
行 生成 器 表达 式 得 到 的 生成 器 对 象 属 于 语言 内 部 的 GeneratorType 类 型 
Chttps://docs.python.org/3/library/types. html#types.Generator Type) 。 从 这 方面 来 看 ， 所 
有 生成 器 都 是 迭代 器 ， 因 为 GeneratorType RH ASE RISER SIRO. Art, 
我 们 可 以 编写 不 是 生成 器 的 迭代 器 ， 方 法 是 实现 经 典 的 迭代 器 模式 ， 如 示例 14-4 所 
示 ， 或 者 使 用 C 语言 编写 扩展 。 从 这 方面 来 看 ，enumerate 对 象 不 是 生成 器 : 

















>>> import types 

>>> e = enumerate('ABC') 

>>> isinstance(e, types.GeneratorType) 
False 








这 是 因为 types .GeneratorType 类 型 
(https://docs.python.org/3/library/types.html#types.GeneratorType ) 是 这 样 定 义 的 :“ 生 
成 器 一 达 代 器 对 象 的 类 型 ， 调 用 生成 器 函数 时 生成 。” 


第 三 方面 是 概念 。 根 据 《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 的 定义 ， 在 典 

















AY ea BT, Ea Pan, AARP ode Tea eR 
AX, BU, TKR. (Ae, AAI ae ee, AE MINA 
的 数据 源 中 读 取 值 ， 而 且 ， 调 用 next(it) 时 ， 和 迭代 器 不 能 修改 从 数据 源 中 读 取 的 
值 ， 只 能 原封 不 动 地 产 出 值 。 


而 生成 器 可 能 无 需 遍 历 集 合 就 能 生成 值 ， 例 如 range 函数 。 即 便 依附 了 集合 ， 生 成 
器 不 仅 能 产 出 集合 中 的 元 素 ， 还 可 能 会 产 出 派生 自 元 素 的 其 他 值 。enumerate 函数 
是 很 好 的 例子 。 根 据 友 代 器 设计 模式 的 原始 定义 ，enumerate 函数 返回 的 生成 器 不 
是 达 代 器 ， 因 为 创建 的 是 生成 器 产 出 的 元 组 。 


从 概念 方面 来 看 ， 实 现 方式 无 关 紧 要 。 不 使 用 Python 生成 器 对 象 也 能 编写 生成 器 。 
为 了 表明 这 一 点 ， 我 写 了 一 个 辈 波 纳 夏 数列 生成 器 ， 如 示例 14-26 所 示 。 


示例 14-26 fibo by hand.py: 不 使 用 GeneratorType 实例 实现 斐 波 纳 契 数列 生 
成 器 















































class Fibonacci: 


def _iter (self): 
return FibonacciGenerator() 


class FibonacciGenerator: 


def _ init__(self): 
self.a = 6 
self.b = 1 


def _next_ (self): 
result = self.a 
self.a, self.b = self.b, self.a + self.b 
return result 











示例 14-26 虽然 可 行 ， 但 只 是 一 个 愚蠢 的 示例 。 符 合 Python KEK HY SEU ARAE 
器 如 下 所 示 : 


def fibonacci(): 
a, b=0, 1 
while True: 


yield a 
a, b=b, a+b 








eee .6000 遍历 集合 ， 并 从 中 
元 素 。 


EKE, Python 程序 员 不 会 严格 区 分 二 者 ， 即 便 在 官方 文档 中 也 把 生成 器 称 作 迭 代 
器 。 Python 词汇 表 Chttps://docs.python.org/dev/glossary.html#term-iterator) XARF F 
的 权威 定义 比较 笼统 ， 涵 盖 了 和 迭代 器 和 生成 器 。 











eas: 表示 数据 流 的 对 象 .…… 


建议 你 读 一 下 Python 词汇 表 中 对 迭代 器 的 完整 定义 
(https://docs.python.org/3/glossary.html#term-iterator )。 而 在 生成 器 的 定义 中 
(https://docs.python.org/3/glossary.html#term-generator) ， 和 迭代 器 和 生成 器 是 同 义 

W, “生成 器 ?” 指 代 生 成 器 函数 ， 以 及 生成 器 函数 构建 的 生成 器 对 象 。 因 此 ， 在 Python 
社区 的 行 话 中 ， 返 代 器 和 生成 器 在 一 定 程 度 上 是 同义词 。 


Python 中 最 简 的 迭代 器 接口 
《设计 柑 式 : 可 复 用 面向 对 象 软件 的 基础 》 一 书 讲解 迭代 器 模式 时 ， 在 “实现 ”一 节 中 


说 道 : 














迭代 器 的 最 小 接口 由 First、Next、IsDone 和 CurrentItem 操作 组 成 。 
不 过 ， 这 人 句 话 有 个 脚注 : 


甚至 可 以 将 Next、IsDone 和 Currentltem 并 入 到 一 个 操作 中 ， 该 操作 前 进 到 下 一 
个 对 象 并 返回 这 个 对 象 ， WRN 吉 束 ， 那 么 这 个 操作 返回 一 ee (fil 
如 ，0) 标志 该 迭代 结束 。 这 样 我 们 就 使 这 个 接口 变 得 更 小 了 


这 与 Python 的 做 法 接近 : 只 用 一 个 _next__ 方法 完成 这 项 工作 。 不 过 ， 为 了 表明 
迭代 结束 ， 这 个 万 法 没有 使 用 啊 符 ， 因为 哨 符 可 能 不 小 心 被 忽略 ， 而 是 使 用 
StopIteration 异常 。 简 单 且 正确 ， 这 正 是 Python 之 道 。 















































18Joe Gibbs Politz, Alejandro Martinez, Matthew Milano, Sumner Warren, Daniel Patterson, Junsong Li, Anand Chitipothu, and 
Shriram Krishnamurthi,“Python: The Full Monty,” SIGPLAN Not. 48, 10 (October 2013), 217-232. 





194 Curious Course on Coroutines and Concurrency” (http//www.dabeaz.com/coroutines/Coroutines.pdf) ， 第 31 张 幻灯 片 。 
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15 上 和 下文 管 理 器 和 else ik 


最 终 ， 上 下 文 管理 器 可 能 几乎 与 子 程序 (subroutine) 本 身 一 样 重要 。 目 前 ， 我 们 只 

了 解 了 上 下 区 人 器 的 皮毛 ..….... Basic 语言 有 with 语句 ， 而 且 很 多 语言 都 有 。 但 
是 ， 在 各 种 语言 中 with 语句 的 作用 不 同 ， 而 且 做 的 都 是 简单 的 事 ， 虽 然 可 以 避免 不 
断 使 用 点 号 查找 属性 ， 但 是 个 会 做 事前 准备 和 事后 清理 。 不 要 觉得 名 字 一 样 ， 就 意味 
着 作用 也 一 样 。with 语句 是 非常 了 不 起 的 特性 。 
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1 节选 自 PyCon US 2013 主题 演讲 “What Makes Python Awesome” (httpy/pyvideo.org/video/1669/keynote-3) ; 关于 with 的 





部 分 从 23:00 开始 ， 到 26:15 结束 。 





本 章 讨 论 其 他 语言 中 不 常见 的 一 些 流程 控制 特性 ， 正 因 如 此 ，Python 用 户 往往 会 忽视 或 没 
有 充分 使 用 这 些 特性 。 下 面 要 讨论 的 特性 有 : 














e with 语句 和 上 下 文 管理 














at 


e for, while 和 try 语句 的 else (4) 
with 语句 会 设置 一 个 临时 的 上 下 文 ， 交 给 上 下 文 管理 器 对 象 控制 ， 并 且 负 责 清 理 上 下 
文 。 eT 因此 API 更 安全 ， 而 且 更 易于 使 用 。 除 了 自动 
关闭 文件 之 外 ，with 块 还 有 很 多 用 途 


T 在 句 完 全 没有 关系 。 可 是 已 经 写 到 第 五 部 分 了 ， 我 找 不 到 其 他 地 方 介 





如 else， 又 不 能 单 写 只 有 一 





下 面 从 这 个 较 小 的 话题 开始 ， 









































页 内 容 的 一 章 ， 因 此 就 在 这 一 章 讨 论 了 。 
进入 本 章 的 实质 内 容 。 


151 EXA, FAR: 庄 语 句 之 外 的 else 块 


言 特 性 不 是 什么 秘密 ， 但 却 没 有 得 到 重视 : else 子 名 不仅 能 在 if 语句 中 使 用 ， 
能 在 for, while 和 try 语句 中 使 用 。 


for/else, while/else 和 try/else 的 语义 关系 紧密 ， 不 过 与 if/else 差别 很 大 。 起 
初 ，else 这 个 单词 的 意思 阻碍 了 我 对 这 些 特性 的 理解 ， 但 是 最 终 我 习 惯 了 。 


else 子 句 的 行为 如 下 。 

















for 


M24 for 循环 运行 完毕 时 〈 即 for 循环 没有 被 break 语句 中 止 ) 才 运 行 else 块 。 





while 


124 while 循环 因为 条 件 为 假 值 而 退出 时 〈 即 while 循环 没有 被 break 语句 中 止 ) 
才 运 行 else 块 。 





try 


仅 当 try 块 中 没有 异常 抛 出 时 才 运 行 else 块 。 官 方 文档 
(https://docs. python.org/3/reference/compound_ stmts.html) 还 指出 : “else FAH A 
不 会 由 前 面 的 except 子 句 处 理 。， 


在 所 有 情况 下 ， 如 果 异 常 或 者 return, break 或 continue 语句 导致 控制 权 跳 到 了 复合 
语句 的 主 块 之 外 ，else 子 句 也 会 被 跳 过 








i 























` 我 觉得 除了 if 语句 之 外 ， 其 他 语句 选择 使 用 else 关键 字 是 个 错误 。else Fi 
含 着 “排他 性 ”这 层 意 思 ， 例 如 “要 么 运行 这 个 循环 ， 要 么 做 那 件 事 *"。 可 是 ， 在 循环 
F, else 的 语义 恰好 相反 : “运行 这 个 循环 ， 然 后 做 那 件 事 。”* 因 此 ， 使 用 then 关 
键 字 更 好 。then 在 try 语句 的 上 下 文中 也 说 得 通 :“ 尝 试 运行 这 个 ， 然 后 做 那 件 
事 。” 可 是 ， 添 加 新 关键 字 属 于 语言 的 重大 变化 ， 而 Guido MERZ AK. 


在 这 些 语句 中 使 用 else 子 句 通常 能 让 代码 更 易于 阅读 ， 而 且 能 省 去 一 些 麻烦 ， 不 用 设置 
控制 标志 或 者 添加 额外 的 if 语句 。 


在 循环 中 使 用 else 子 句 的 方式 如 下 述 代 码 片 段 所 示 : 


























for item in my_list: 
if item.flavor == 'banana': 
break 


else: 
raise ValueError('No banana flavor found!') 














一 开始 ， 你 可 能 觉得 没 必 要 在 try/except 块 中 使 用 else 子 句 。 毕 竞 ， 在 下 述 代 码 片 段 
中 ， 只 有 dangerous_call() 不 抛 出 异常 ，after_cal1() TERT, XIE? 





try: 
dangerous_call() 
after_call() 


except OSError: 
log('OSError...') 





然而 ，after_call() 不 应 该 放 在 try 块 中 。 为 了 清晰 和 准确 ，try 块 中 应 该 只 抛 出 预期 
异常 的 语句 。 因 此 ， 像 下 面 这 样 写 更 好 : 





try : 

dangerous_call() 
except OSError: 

log('OSError...') 
else: 

after_call() 








现在 很 明确 ，try 块 防守 的 是 dangerous _call() 可 能 出 现 的 错误 ， 而 不 是 
after_cal1l()。 而 且 很 明显 ， 只 有 try 块 不 抛 出 异常 ， 才 会 执行 after_call()。 


在 Python 中 ，try/except 不 仅 用 于 处 理 错 误 ， 还 常用 于 控制 流程 。 为 此 ，Python 官方 词 
汇 表 Chttps://docs.python.org/3/glossary.html#term-eafp) 还 定义 了 一 个 缩 略 词 〈 口 号 ) 。 












































EAFP 





取得 原谅 比 获 得 许可 容易 Ceasier to ask for forgiveness than permission) 。 这 是 一 
种 常见 的 Python 编程 风格 ， 先 假定 存在 有 效 的 键 或 属性 ， 如 果 假 定 不 成 立 ， 那 么 捕 
获 异 常 。 这 种 风格 简单 明快 ， 特 点 是 代码 中 有 很 多 try 和 except 语句 。 与 其 他 很 多 
语言 一 样 〈“ 如 C 语言 ) ， 这 种 风格 的 对 立 面 是 LBYL 风格 。 


接 下 来 ， 词 汇 表 定 义 了 LBYL。 
LBYL 
三 思 而 后 行 Cook before you leap) 。 这 种 编程 风格 在 调用 函数 或 查找 属性 或 键 
之 前 显 式 测试 前 提 和 条件。 与 EAFP 风格 相反 ， 这 种 风格 的 特点 是 代码 中 有 很 多 if 语 
句 。 在 多 线程 环境 中 ，LBYL 风格 可 能 会 在 “检查 ”和 “行事 ”的 空当 引入 条 件 竞争 。 例 
如 ， 对 if key in mapping: return mapping[key] 这 段 代 码 来 说 ， 如 果 在 测试 


之 后 ， 但 在 查找 之 前 ， 另 一 个 线程 从 映射 中 删除 了 那个 键 ， 那 么 这 段 代 码 就 会 失败 。 
这 个 问题 可 以 使 用 锁 或 者 EAFP 风格 解决 。 


oo EAFP 风格 ， 那 就 要 更 深入 地 了 解 else 子 句 ， 并 在 try/except 语句 中 合 
理 使 用 。 


下 面 探讨 本 章 的 主要 话题 : 强大 的 with 语句 。 










































































15.2 ”上 下 文 管 理 器 和 with 块 


< 管理 器 对 象 存 在 的 目的 是 管理 with 语句 ， 就 像 迭 代 器 的 存在 是 为 了 管理 for 语句 


with 语句 的 目的 是 简化 try/finally 模式 。 这 种 模式 用 于 保证 一 段 代码 运行 完毕 后 执行 
某 项 操作 ， 即 便 那 段 代 码 由 于 异常 、return 语句 或 sys .exit() 调用 而 中 止 ， 也 会 执行 
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指定 的 操作 。 Finally 子 句 中 的 代码 通常 用 于 释放 重要 的 资源 ， 或 者 还 原 临时 变更 的 状 














上 下 文 管理 器 协议 包含 enter 和 ”exit _ 两 个 方法 。with 语句 开始 运行 时 ， 会 在 
上 下 文 管理 器 对 象 上 调用 enter 方法 。with 语句 运行 结束 后 ， 会 在 上 下 文 管理 器 对 
象 上 调用 exit 方法 ， 以 此 扮演 finally 子 句 的 角色 。 
最 常见 的 例子 是 确保 关闭 文件 对 象 。 使 用 with 语句 关闭 文件 的 详细 说 明 参 见 示例 15-1。 


示例 15-1 演示 把 文件 对 象 当 成 上 下 文 管理 器 使 用 





























































































































>>> with open('mirror.py') as fp: # © 
src = fp.read(60) #@ 


>>> len(src) 
60 
>> fp #0 
<_io.TextIOWrapper name='mirror.py' mode='r' encoding='UTF-8'> 
>>> fp.closed, fp.encoding # @ 
(True, 'UTF-8') 
>>> fp.read(60) # O 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: I/O operation on closed file. 














O fp 绑 定 到 打开 的 文件 上 ， 因 为 文件 的 _enter_ ”方法 返回 self. 
四 从 fp 中 读 取 一 些 数据 。 
O fp 变量 仍然 可 用 。“ 

















2 与 函数 和 模块 不 同 ，with 块 没 有 定义 新 的 作用 域 。 











O 可 以 读 取 fp 对 象 的 属性 。 


O 但 是 不 能 在 fp 上 执行 IO 操作 ， 因 为 在 with 块 的 末尾 ， 调 用 
TextIOWrapper._exit _ 方法 把 文件 关闭 了 。 


示例 15-1 中 标注 @ 的 那 行 代码 道 出 了 不 易 察觉 但 很 重要 的 一 点 : 执行 with 后 面 的 表达 
式 得 到 的 结果 是 上 下 文 管理 器 对 象 ， 不 过 ， 把 值 绑 定 到 目标 变量 上 〈as 子 句 ) 是 在 上 下 






















































































文 管理 器 对 象 上 调用 enter _ 方法 的 结果 。 


碰巧 ， 示 例 15-1 中 的 open() 函数 返回 TextIOWrapper 类 的 实例 ， 而 该 实例 的 

_ enter ”方法 返回 self. P$, enter _ 方法 除了 返回 上 下 文 管理 器 之 外 ， 还 可 能 
返回 其 他 对 象 。 
不 


` 管 控制 流程 以 哪 种 方式 退出 with 块 ， 都 会 在 上 下 文 管理 器 对 象 上 调用 exit 方 
法 ， 而 不 是 在 __enter _ 方法 返回 的 对 象 上 调用 。 


with 语句 的 as 子 句 是 可 选 的 。 对 open 函数 来 说 ， 必 须 加 上 as 子 句 ， 以 便 获取 文件 的 
引用 。 不 过 ， 有 些 上 下 文 管理 器 会 返回 None， 因 为 没什么 有 用 的 对 象 能 提供 给 用 户 。 


示例 15-2 使 用 一 个 精心 制作 的 上 下 文 管理 器 执行 操作 ， 以 此 强调 上 下 文 管理 器 与 
enter _ 方法 返回 的 对 象 之 间 的 区 别 。 































































































































































































示例 15-2 测试 LookingGlass 上 下 文 管理 器 类 





>>> from mirror import LookingGlass 

>>> with LookingGlass() as what: © 
print('Alice, Kitty and Snowdrop') @ 
print (what) 


pordwonsS dna yttik ,ecilA © 
YKCOWREBBAJ 

>>> what @ 

' JABBERWOCKY ' 

>>> print('Back to normal.') © 
Back to normal. 









































O 上 下 文 管理 器 是 LookingGlass 类 的 实例 ，Python 在 上 下 文 管理 器 上 调用 _enter 
方法 ， 把 返回 结果 绑 定 到 what 上 。 


四 打印 一 个 字符 串 ， 然 后 打印 what 变量 的 值 。 
全 打印 出 的 内 容 是 反 向 的 。 


OME, with 块 已 经 执行 完毕 。 可 以 看 出 ， enter 方法 返回 的 值 一 一 即 存 储 在 
what 变量 中 的 值 一 一 是 字符 串 'JABBERWOCKY'。 


O 输出 不 再 是 反 向 的 了 。 


示例 15-3 是 LookingGlass 类 的 实现 。 




































































示例 15-3 mirror.py: LookingGlass 上 下 文 管理 器 类 的 代码 














class LookingGlass: 


def _enter_(self): © 
import sys 
self.original_write = sys.stdout.write @ 
sys.stdout.write = self.reverse write © 


return 'JABBERWOCKY' @ 


de 


十 


reverse write(self, text): © 
self .original_write(text[::-1]) 


def _exit_ (self, exc type, exc value, traceback): © 
import sys 
sys.stdout.write = self.original write © 
if exc type is ZeroDivisionError: 
print('Please DO NOT divide by zero!') 
return True 











Okey self 2b, Python AA enter _ ”方法 时 不 传 入 其 他 参数 。 

© 把 原来 的 sys.stdout .write 方法 保存 在 一 个 实例 属性 中 ， 供 后 面 使 用 。 
OW sys.stdout.write Ft), FIRMA CMS NTE. 
四 返回 "JABBERWOCKY' 字符 串 ， 这 样 才 有 内 容 存 入 目标 变量 what. 


O 这 是 用 于 取代 sys .stdout .write 的 方法 ， 把 text 参数 的 内 容 反 转 ， 然 后 调用 原来 
的 实现 。 


O 如 果 一 切 正常 ，Python 调用 ”exit 方法 时 传 入 的 参数 是 None，None，None; 如 
果 抛 出 了 有 异常， 这 三 个 参数 是 异常 数据 ， 如 下 所 述 。 


O 重复 导入 模块 不 会 消耗 很 多 资源 ， 因 为 Python 会 缓存 导入 的 模块 。 
O 还 原 成 原来 的 sys.stdout .write 方法。 

O 如 果 有 异常 ， 而 且 是 ZeroDivisionError 类 型 ， 打 印 一 个 消息 .…… 
® .…. 然 后 返回 True， 告 诉 解释 器 ， 异 常 已 经 处 理 了 。 


D 如果 exit 方法 返回 None, 或 者 True 之 外 的 值 ，with 块 中 的 任何 异常 都 会 向 上 
冒 泡 。 





















































nd 在 实际 使 用 中 ， 如 果 应 用 程序 接管 了 标准 输出 ， 可 能 会 暂时 把 sys. stdout 换 
成 类 似 文件 的 其 他 对 象 ， 然 后 再 切换 成 原来 的 版 

AS. contextlib.redirect_stdout 上 下 文 管理 器 
Chttps://docs.python.org/3/library/contextlib.html#contextlib.redirect stdout) 就 是 这 么 做 
的 : 只 需 传 入 类 似 文件 的 对 象 ， 用 于 替代 sys.stdout. 


解释 器 调用 __enter_ 方法 时 ， 除 了 隐 式 的 self 之 外 ， 不 会 传 入 任何 参数 。 传 给 
exit ”方法 的 三 个 参数 列举 如 下 。 























exc_type 


异常 类 〈 例 如 ZeroDivisionError) > 





exc_value 


异常 实例 。 有 时 会 有 参数 传 给 异常 构造 方法 ， 例 如 错误 消息 ， 这 些 参 数 可 以 使 用 


exc_value.args 获取 。 

















traceback 


traceback 对 象 。3 











3 在 try/finally 语句 的 finally 块 中 调用 sys .exc nay Chttps://docs.python. org/3/library/sys. html#sys.exc_info) , 
得 到 的 就 是 exit _ 接收 的 这 三 个 参数 。 鉴 于 with 语句 是 为 了 取代 大 多 数 try/finally 语句 ， 而 且 通 常 需要 调用 
sys.exc_info() 来 判断 做 什么 清理 操作 ， 这 种 行为 是 合理 的 。 








































































































上 下 文 管理 器 的 其 人体 工作 方式 参见 示例 15-4。 在 这 个 示例 中 ， 我 们 在 with 块 之 外 使 用 
LookingGlass 类 ， 因 此 可 以 手动 调用 _enter 和 ”exit 方法 。 








示例 15-4 在 with 块 之 外 使 用 LookingGlass 类 





>>> from mirror import LookingGlass 

>>> manager = LookingGlass() @ 

>>> manager 

<mirror.LookingGlass object at @x2a578ac> 
>>> monster = manager. enter _ () @ 

>>> monster == 'JABBERWOCKY' © 

eurT 

>>> monster 

"YKCOWREBBAJ ' 

>>> manager 

>ca875a2x® ta tcejbo ssalGgnikooL.rorrim< 
>>> manager. exit (None, None, None) @ 
>>> monster 

"JABBERWOCKY ' 








@ 实例 化 并 审查 manager 实例 。 
O 在 上 下 文 管理 器 上 调用 enter () 方 法， 把 结果 存储 在 monster 中 。 


© monster 的 值 是 字符 串 'JABBERWOCKY' 。 打 印 出 的 True 标识 符 是 反 向 的 ， 因 为 
stdout 的 所 有 输出 都 经 过 ”enter _ 方法 中 打 补 丁 的 write 方法 处 理 。 


© JHH manager. exit__, 还 原 成 之 前 的 stdout.write. 


ee Python 社区 肯定 还 在 不 断 寻 找 新 的 创意 用 法 。 标 准 库 中 
些 示例 


。 在 sqlite3 模块 中 用 于 管理 事务 ， 参 见 “12.6.7.3. Using the connection as a context 
manager” (https://docs.python.org/3/library/sqlite3.html#using-the-connection-as-a-context- 
manager) 。 





































































































e TŒ threading 模块 中 用 于 维护 锁 、 条 件 和 信和 号， 参见 “17.1.10. Using locks, conditions, 
and semaphores in the with 
statement” Chttps://docs.python.org/3/library/threading. html#using-locks-conditions-and- 
semaphores-in-the-with-statement) 。 


e A Decimal 对 象 的 算术 运算 设置 环境 ， 参 见 decimal.localcontext 函数 的 文档 
(https://docs.python.org/3/library/decimal.html#decimal.localcontext) 。 


。 为 了 测试 临时 给 对 象 打 补 十， 参见 unittest.mock.patch 函数 的 文档 
Chttps://docs.python.org/3/library/unittest.mock.html#patch) 。 














4 在 Python 3.5 文档 中 是 “12.6.8.3”。 一 一 编者 注 











标准 库 中 还 有 个 contextlib 模块 ， 提 供 一 些 实 用 工具 ， 参 见 下 一 节 。 








15.3 ”contextlib 模 块 中 的 实用 工具 


自己 定义 上 下 文 管理 器 类 之 前 ， 先 看 一 下 Python 标准 库 文档 中 的 “29.6 contextlib 一 
Utilities for with-statement contexts” (https://docs.python.org/3/library/contextlib.html) 。 除 了 
前 面 提 到 的 redirect_stdout 函数 ，context1ib 模块 中 还 有 一 些 类 和 其 他 函数 ， 使 用 
范围 更 广 。 


























closing 


如 果 对 象 提供 了 close() 方法 ， 但 没有 实现 _ enter _ /exit _ 协议， 那么 可 以 
使 用 这 个 函数 构建 上 下 文 管理 器 。 









































suppress 


构建 临时 忽略 指定 异常 的 上 下 文 管理 器 。 





























@contextmanager 


m 这 个 装饰 器 把 简单 的 生成 器 函数 变 成 上 下 文 管理 器 ， 这 样 就 不 用 创建 类 去 实现 管理 器 
办 议 了 。 



































ContextDecorator 


这 是 个 基 类 ， 用 于 定义 基于 类 的 上 下 文 管理 器 。 这 种 上 下 文 管理 器 也 能 用 于 装饰 函 
数 ， 在 受 管理 的 上 下 文中 运行 整个 函数 。 


ExitStack 


这 个 上 下 文 管理 器 能 进入 多 个 上 下 文 管理 器 。with 块 结束 时 ，Exitstack 按照 后 进 
先 出 的 顺序 调用 栈 中 各 个 上 下 文 管理 器 的 ”exit _ 方 法。 如果 事 先 不 知道 with 块 要 进 
aaa 可 以 使 用 这 个 类 。 例 如 ， 同 时 打开 任意 一 个 文件 列表 中 的 所 有 文 


显然 ， 在 这 些 实用 工具 中 ， 使 用 最 广泛 的 是 @contextmanager 装饰 器 ， 因 此 要 格外 留 
心 。 这 个 装饰 器 也 有 迷惑 人 的 一 n 因为 它 与 迭代 无 关 ， 却 要 使 用 yield 语句 。 由 此 可 
以 引出 协 程 ， 这 是 下 一 章 的 主题 









































































































































15.4 ”使 用 @contextmanager 


@contextmanager 装饰 器 能 减少 创建 上 下 文 管理 器 的 样板 代码 量 ， 因 为 不 用 编写 一 个 完 
整 的 类 ， 定 义 enter 和 ”exit _ 方法 ， 而 只 需 实现 有 一 个 yield 语句 的 生成 器 ， 
生成 想 让 ”enter _ 方法 返回 的 值 。 

在 使 用 @contextmanager 装饰 的 生成 器 中 ，yield 语句 的 作用 是 把 函数 的 定义 体 分 成 两 
部 分 : yield 语句 前 面 的 所 有 代码 在 with 块 开始 时 ( 即 解释 器 调用 enter _ 方法 
时 ) 执行 ，yield 语句 后 面 的 代码 在 with 块 结束 时 ( 即 调用 exit _ 方法 时 ) 执行 。 


下 面 举 个 例子 。 示 例 15-5 使 用 一 个 生成 器 函数 代替 示例 15-3 中 定义 的 LookingGlass 






















































































类 


示例 15-5 mirror_gen.py: 使 用 生成 器 实现 的 上 下 文 管理 器 





























import contextlib 


@contextlib.contextmanager © 
def looking glass(): 
import sys 
original _write = sys.stdout.write @ 


def reverse write(text): © 
original_write(text[::-1]) 


sys.stdout.write = reverse write @ 
yield 'JABBERWOCKY' 
sys.stdout.write = original write © 





@ 应 用 contextmanager 装饰 器 。 


四 贮存 原来 的 sys.stdout.write 方法 。 











Q 定义 自 定义 的 reverse write MA; 在 闭 包 中 可 以 访问 original_write. 








四 把 sys.stdout.write 替换 成 reverse_write。 


@ 产 出 一 个 值 ， 这 个 值 会 绑 定 到 with 语句 中 as 子 句 的 目标 变量 上 。 执 行 with 块 中 的 
代码 时 ， 这 个 函数 会 在 这 一 点 暂停 。 


O 控制 权 一 旦 跳出 with 块 ， 继 续 执行 yield 语句 之 后 的 代码 ; 这 里 是 恢复 成 原来 的 
sys. stdout.write 方法 。 


























示例 15-6 是 使 用 looking glass 函数 的 例子 。 


示例 15-6 测试 looking glass 上 下 文 管理 器 函数 
































>>> from mirror gen import looking glass 

>>> with looking glass() as what: © 
print('Alice, Kitty and Snowdrop’) 
print (what) 


pordwonS dna yttik ,ecilA 
YKCOWREBBAJ 

>>> what 

"JABBERWOCKY ' 




















O 与 示例 15-2 唯一 的 区 别 是 上 下 文 管理 器 的 名 字 : LookingGlass 变 成 了 


looking glass. 











H, contextlib.contextmanager 装饰 器 会 把 函数 包装 成 实现 ”enter fil 
_ exit 方法 的 类 。5 








5 类 的 名 称 是 _GeneratorContextManager。 如 果 想 了 解 具体 的 工作 方式 ， 可 以 阅读 Python 3.4 发 行 版 中 
Lib/contextlib.py 文件 里 的 源码 Chttps://hg.python.org/cpython/file/3.4/Lib/contextlib.py#134) o 














这 个 类 的 enter _ 方法 有 如 下 作用 。 

(1) 调用 生成 器 函数 ， 保 存 生成 器 对 象 〈 这 里 把 它 称 为 gen) 。 

(2) 调用 next (gen)， 执 行 到 yield 关键 字 所 在 的 位 置 。 

(3) 返回 next(gen) 产 出 的 值 ， 以 便 把 产 出 的 值 绑 定 到 with/as 语句 中 的 目标 变量 上 。 
with 块 终止 时 ，__exit__ 方法 会 做 以 下 几 件 事 。 


(1) 检查 有 没有 把 异常 传 给 exc_type; 如 果 有 ， 调 用 gen.throw(exception)， 在 生成 
器 函数 定义 体 中 包含 yield 关键 字 的 那 一 行 抛 出 异常 。 
(2) 否则 ， 调 用 next (gen)， 继 续 执行 生成 器 函数 定义 体 中 yield 语句 之 后 的 代码 。 

示例 15-5 有 一 个 严重 的 错误 : 如 果 在 with 块 中 抛 出 了 异常 ，Python 解释 器 会 将 其 捕获 ， 
然后 在 looking_glass 函数 的 yield 表达 式 里 再 次 抛 出 。 但 是 ， 那 里 没有 处 理 错 误 的 代 


码 ， 因 此 looking glass 函数 会 中 止 ， 永 远 无 法 恢复 成 原来 的 sys.stdout.write 方 
法 ， 导 致 系统 处 于 无 效 状态 。 


示例 15-7 添加 了 一 些 代 码 ， 特 别 用 于 处 理 ZeroDivisionError 异常 这样， 在 功能 上 
它 就 与 示例 15-3 中 基于 类 的 实现 等 效 了 。 


示例 15-7 mirror gen exc.py: 基于 生成 器 的 上 下 文 管理 器 ， 而 且 实 现 了 异常 处 理 
一 一 从 外 部 看 ， 行 为 与 示例 15-3 一 样 












































































































































ro 














import contextlib 


@contextlib.contextmanager 
def looking glass(): 


import sys 
original_write = sys.stdout.write 


def reverse_write(text): 
original_write(text[::-1]) 


sys.stdout.write = reverse write 
msg = '' 
try: 
yield 'JABBERWOCKY' 
except ZeroDivisionError: @ 
msg = 'Please DO NOT divide by zero!' 
finally: 
sys.stdout.write = original write © 
if msg: 
print(msg) @ 











@ 创建 一 个 变量 ， 用 于 保存 可 能 出 现 的 错误 消息 ， 与 示例 15-5 相 比 ， 这 是 第 一 处 改动 。 

















© 处 理 ZeroDivisionError 异常 ， 设 置 一 个 错误 消息 。 





© 撤销 对 sys.stdout.write 方法 所 做 的 猴子 补丁 。 
O 如 果 设 置 了 错误 消息 ， 把 它 打 印 出 来 。 


前 面 说 过 ， 为 了 告诉 解释 器 异常 已 经 处 理 了 ， exit _ 方法 会 返回 True， 此 时 解释 器 
会 压制 异常 。 如 果 exit _ 方法 没有 显 式 返回 一 个 值 ， 那 么 解释 器 得 到 的 是 None， 然 
后 同上 冒 泡 异常 。 使 用 @contextmanager 装饰 器 时 ， 默 认 的 行为 是 相反 的 : 装饰 器 提供 
的 _ exit _ ”方法 假定 发 给 生成 器 的 所 有 异常 都 得 到 处 理 了 ， 因 此 应 该 压制 异常 。6 如 果 
不 想 让 @contextmanager 压制 异常 ， 必 须 在 被 装饰 的 函数 中 显 式 重 新 抛 出 异常 。” 




































































6 把 异常 发 给 生成 器 的 方式 是 使 用 throw 方法 ， 参 见 16.5 节 。 



























































?这 样 约定 的 原因 是 ， 创 建 上 下 文 管理 器 时 ， 生 成 器 无 法 返回 值 ， 只 能 产 出 
所 述 。 届 时 你 会 看 到 ， 如 果 在 生成 器 中 返回 值 ， 那 么 会 抛 出 异常 。 











= 
I 


直 。 不 过 ， 现 在 可 以 返回 值 了 ， 如 16.6 节 





















































AI 使 用 @contextmanager 装饰 器 时 ， 要 把 yield 语句 放 在 try/finally 语句 
中 《或 者 放 在 with 语句 中 ) ， 这 是 无 法 避免 的 ， 因 为 我 们 永远 不 知道 上 下 文 管理 器 
的 用 户 会 在 with 块 中 做 什么 。8 























8 这 条 提示 直接 引用 Leonardo Rochael 的 评论 ， 他 是 本 书 的 技术 审 校 之 一 。 说 得 好 ，Leo ! 

















除了 标准 库 中 举 的 例子 之 外 ，Martijn Pieters 实现 的 原 地 文件 重 写 上 下 文 管理 器 
(http://www.zopatista.com/python/2013/11/26/inplace-file-rewriting/) 是 @contextmanager 
不 错 的 使 用 实例 。 用 法 如 示例 15-8 所 示 。 


示例 1S-8 用 于 原 地 重 写 文 件 的 上 下 文 管理 器 



































import csv 


with inplace(csvfilename, 'r', newline='') as (infh, outfh): 
reader = csv.reader(infh) 
writer = csv.writer(outth) 


for row in reader: 
row += ['new', ‘columns' ] 
writer .writerow(row) 


























inplace 函数 是 个 上 下 文 管理 器 ， 为 同一 个 文件 提供 了 两 个 句柄 〈 这 个 示例 中 的 infh 和 
outfh) ， 以 便 同 时 读 写 同一 个 文件 。 这 比 标准 库 中 的 fileinput.input 函数 
(https://docs.python.org/3/library/fileinput.html#fileinput.input; 顺便 说 一 下 ， 这 个 函数 也 提 
供 了 一 个 上 下 文 管理 器 ) 易于 使 用 。 


如 果 想 学 习 Martijn 实现 inplace 的 源码 〈 列 在 这 篇 文章 

中 : http://www.zopatista.com/python/2013/11/26/inplace-file-rewriting/) ， 找 到 yield 关键 
字 ， 在 此 之 前 的 所 有 代码 都 用 于 设置 上 下 文 : 先 创建 备份 文件 ， 然 后 打开 并 产 出 
enter _ 方法 返回 的 可 读 和 可 写 文件 句柄 的 引用 。yield 关键 字 之 后 的 exit _ 处 
里 过 程 把 文件 句柄 关闭 ， 如果 什么 地 方 出 错 了 ， 那 么 从 备份 中 恢复 文件 。 


注意 ， 在 @contextmanager 装饰 器 装饰 的 生成 器 中 ，yiel1d 与 迭代 没有 任何 关系 。 在 本 
节 所 举 的 示例 中 ， 生 成 器 函数 的 作用 更 像 是 协 程 : 执行 到 某 一 点 时 暂停 ， 让 客户 代码 运 
行 ， 直 到 客户 让 协 程 继 续 做 事 。 第 16 章 会 全 面 讨论 协 程 。 
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15.5 本章 小 结 


本 章 从 简单 的 话题 入 手 ， 先 讨论 了 for, while M try 语句 的 else 子 句 。 当 你 习惯 
else 子 句 在 这 些 语 句 中 的 奇怪 意思 之 后 ， 我 相信 else 能 阐明 你 的 意图 。 


然后 ， 本 章 讨 论 了 上 下 文 管理 器 和 with 语句 的 作用 。 很 快 我 们 就 知道 ， 除 了 自动 关闭 打 
开 的 文件 之 外 ，with 语句 还 有 很 多 用 途 。 我 们 自己 动手 实现 了 一 个 上 下 文 管理 器 一 一 合 
有 _ enter /exit 方法 的 LookingGlass 类 ,说 明了 如 何在 exit _ 方法 中 处 
理 异常 。 Raymond Hettinger 在 PyCon US 2013 上 所 做 的 主题 演讲 传达 了 一 个 重要 的 观 

点 : with 不 仅 能 管理 资源 ， 还 能 用 于 去 掉 常 规 的 设置 和 清理 代码 ， 或 者 在 另 一 个 过 程 前 
后 执行 的 操作 (“What Makes Python Awesome?”， 第 21 张 约 灯 

Fr, https://speakerdeck.com/pyconslides/pycon-keynote-python-is-awesome-by-raymond- 
hettinger?slide=21) 。 


最 后 ， 我 们 分 析 了 标准 库 中 contextlib 模块 里 的 函数 。 其 中 ，@contextmanager 装饰 
器 能 把 包含 一 个 yield 语句 的 简单 生成 器 变 成 上 下 文 管理 器 一 一 这 比 定义 一 个 至 少 包含 
两 个 方法 的 类 要 更 简洁 。 我 们 使 用 looking_glass 生成 器 函数 实现 了 LookingGlass 

类 ， 还 讨论 了 使 用 @contextmanager 时 如 何 处 理 异常 。 


@contextmanager 装饰 器 优雅 且 实 用 ， 把 三 个 不 同 的 Python 特性 结合 到 了 一 起 : 函数 装 
饰 器 、 生 成 器 和 with 语句 。 





























































































































15.6 ”延伸 阅读 


Python 语言 参考 手册 中 的 “8. Compound statements” 一 

(https://docs.python.org/3/reference/compound_stmts.html) 全 面 说 明了 if. for. while 和 
try 语句 的 else 子 句 。 关 于 try/except 语句 (A else 子 句 ， 或 者 没有 ) 是 否 符合 
Python 风格 ， Raymond Hettinger 在 Stack Overflow 中 对 “Ts it a good practice to use try-except- 
else in Python?” 这 一 问题 Chttp://stackoverflow.com/questions/16138232/is-it-a-good-practice- 
af -use-try-except-else-in- python) 做 了 精彩 的 回答 。 在 Alex Martelli 写 的 《Python 技术 手册 

第 2 版 ) 》 一 书 中 ， 有 一 章 是 关于 异常 的 ， 那 一 音 极 好 地 讨论 了 EAFP 风格 。Alex ih 

比 获得 许可 容易 ”是 由 计算 领域 的 先驱 Grace Hopper 首先 提出 的 。 


在 Python 标准 库 文档 中 ，“4. Built-in Types” 一 章 中 有 一 节 专 门 说 明了 上 下 文 管理 器 的 类 型 

(https://docs.python.org/3/library/stdtypes.html#typecontextmanager ) . Python 语言 参考 手册 
中 还 有 __enter / exit _ 两 个 特殊 方法 的 文档 ， 在 “3.3.8. With Statement Context 
Managers” 一 节 中 (https://docs.python.org/3/reference/datamodel.html#with-statement-context- 
managers) 。 上 下 文 管理 器 在 “PEP 343— 
The‘with’Statement”(https://www.python.org/dev/peps/pep-0343/) 中 引入 。 这 份 PEP 不 易 读 
懂 ， 因 为 大 量 篇 幅 都 在 讲 极端 情况 ， 以 及 反对 其 他 提案 。 这 就 是 PEP 的 特点 。 


在 PyCon US 2013 的 主题 演讲 中 ，Raymond Hettinger 强调 ，with 语句 是 “这 门 语言 的 一 项 

迷人 特性 ”。 在 这 次 大 会 上 的 “Transforming Code into Beautiful, Idiomatic Python 演讲 中 
Chttps: ER PE E E wwe into-beautiful-idiomatic-python-by- 

raymond-hettinger-1?slide=34) ， 他 还 展示 了 上 下 文 管理 器 的 几 个 有 趣 应 用 。 























































































































Jeff Preshing 写 的 一 篇 博客 文章 很 有 趣 ， 题 为 "The Python with Statement by 
Example” Chttp://preshing.com/20110920/the-python-with-statement-by-example/) ， 他 举例 说 
明了 pycairo 图 形 库 中 的 上 下 文 管理 器 。 


Beazley 与 Jones 在 他 们 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 中 ， 发 明了 上 下 文 
管理 器 的 独特 用 途 。“8.3 让 对 象 支持 上 下 文 管理 协议 ”一 节 实 现 了 一 个 LazyConnection 
类 ， 它 的 实例 是 上 下 文 管理 器 ， 在 with 块 中 能 自动 打开 和 关闭 网 络 连 接 。“9.22 以 简单 
#” 一 节 编 写 了 一 个 用 于 统计 代码 运行 时 间 的 上 下 文 管理 器 ， 还 编 

一 个 使 用 事务 修改 list 对 象 的 上 下 文 管理 器 : 在 with 块 中 创建 list 实例 的 如 
所 有 改动 都 针对 那个 副本 ; 仅 当 with 块 没有 抛 出 异 常 ， 正 常 执行 完毕 之 后 ， 才 用 副 
本 替代 原来 的 列表 。 这 样 做 简单 又 巧妙 。 

































































































































































型 

































































谈 


oe 


取出 面包 


在 PyCon US 2013 的 主题 演讲 “What Makes Python Awesome” 中 
_Chttp://pyvideo.org/video/ 1669/keynote-3 ) , Raymond Hettinger 说 他 第 一 次 看 到 with 
语句 的 提案 时 ， 觉 得 “有 点 星 深 难 懂 ”"。 这 和 我 一 开始 的 反应 类 似 。PEP 通常 难以 阅 
读 ，PEP 343 尤其 如 此 。 




















然后 ，Hettinger 告诉 我 们 ， 他 认识 到 在 计算 机 语言 的 发 展 历程 中 ， 子 程序 是 最 重要 的 
发 明 。 如 果 有 一 系列 操作 ， 如 A-B-C 和 P-B-Q， 那 么 可 以 把 B 拿 出 来 ， 变 成 子 程 
序 。 这 就 好 比 把 三 明治 的 馅 儿 取 出 来 ， 这 样 我 们 就 能 使 用 金枪鱼 搭配 不 同 的 面包 。 可 
是 ， 如 果 我 们 想 把 面包 取出 来 ， 使 用 小 麦 面包 夹 不 同 的 馅 儿 呢 ?这 就 是 with 语句 实 
现 的 功能 。with 语句 是 子 程序 的 补充 。Hettinger 接着 说 道 ， 


with 语句 是 非常 了 不 起 的 特性 。 我 建议 你 在 实践 中 深 挖 这 个 特性 的 用 途 。 使 用 
with 语句 或 许 能 做 意义 深远 的 事情 。with 语句 最 好 的 用 法 还 未 被 发 掘 出 来 。 我 
预料 ， 如 果 有 好 的 用 法 ， 其 他 语言 以 及 未 来 的 语言 会 借鉴 这 个 特性 。 或 许 ， 你 正 
在 参与 的 事情 几乎 与 子 程序 的 发 明 一 样 意义 深远 。 


Hettinger 承认 ， 他 夸大 了 with 语句 的 作用 。 尽 管 如 此 ，with 语句 仍 是 一 个 十 分 有 
用 的 特性 。 他 用 三 明治 类 比 ， 道 出 with 语句 是 子 程序 的 补充 ， 那 一 刻 ， 我 的 脑海 中 
浮现 了 许多 可 能 性 。 


如 果 你 想 让 任何 人 信服 Python 是 出 色 的 语言 ， 一 定 要 观看 Hettinger 的 主题 演讲 。 关 
于 上 下 文 管理 器 的 部 分 从 23:00 开始 ， 到 26:15 结束 。 不 过 ， 整 个 主题 演讲 都 很 精 
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16 协 程 











如 果 Python 书籍 有 一 定 的 指导 人 作用， 那么 〈 协 程 就 是 ) 文档 最 匮乏 、 最 鲜 为 人 知 的 





Python 特性 ， 因 此 表面 上 看 是 最 无 用 的 特性 。 











Python B 


David Beazley 


书 作者 


字典 为 动词 “to yield” 给 出 了 两 个 释义 : Benya 对 于 Python 生成 器 中 的 yield 来 
说 ， 这 两 个 含义 都 成 立 。yield item 这 行 代 码 会 


用 方 ; 此 外 ， 还 会 作出 让 步 ， 











JEF, yield 通常 出 现在 表达 式 的 右边 











暂停 执行 生成 器 ， 


产 出 一 个 值 ， 提 供 














给 next(.. 





. ) 的 调 


证 调用 方 继 名 THE, 直到 需要 使 用 另 一 个 
值 时 再 调用 next()。 调 用 方 会 从 生成 器 中 拉 取 值 。 


从 句法 上 看 ， 协 程 与 生成 器 类 似 ， 都 是 定义 体 中 包含 yield 关键 字 的 函数 。 可 是 ， 在 协 


(例如 ，datum = yield) , 





可 以 产 出 值 ， 也 可 


以 不 产 出 一 一 如 果 yield 关键 字 后 面 没有 表达 式 ， 那 么 生成 器 产 出 None。 协 程 可 能 会 从 


调用 方 接收 数据 ， 不 过 调用 方 把 数据 提供 
next(...) 函数 。 通 常 ， 























给 协 程 使 用 的 是 .send(datum) 方法 ， 
调用 方 会 把 值 推送 给 协 程 。 





而 不 是 


yield 关键 字 甚至 还 可 以 不 接收 或 传 册 数据。 不管 数据 如 何 流动 ，yield 都 是 一 种 流程 控 





活 其 他 的 协 程 。 


从 根本 上 把 yield 视 作 控 


本 书 前 面 介绍 的 生成 器 函数 作用 不 大 ， 但 是 进行 
程 。 了 解 Python 协 程 的 进化 过 程 有 助 于 








制 流 程 的 方式 ， 这 样 








制 工具 ， 使 用 它 可 以 实现 协作 式 多 任务 : 协 程 可 以 把 控 

















PEF 
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一 系列 功能 改进 之 后 ， 





制 器 让 步 给 中 心 调度 程序 ， 从 而 激 


得 到 了 Python 协 
理解 各 个 阶段 改进 的 功能 和 复杂 度 。 


本 章 首先 要 简单 介绍 生成 器 如 何 变 成 协 程 ， 然 后 再 进入 核心 内 容 。 本 章 涵盖 以 下 话题 
。 生 成 器 作为 协 程 使 用 时 的 行为 和 状态 
。 使 用 装饰 器 自动 预 激 协 程 
。 调用 方 如 何 使 用 生成 器 对 象 的 .close() 和 .throw(...) 77 
。 协 程 终止 时 如 何 返 回 值 
e yield from 新 句法 的 用 途 和 语 


。 使 用 案例 一 一 使 用 协 程 管理 





























仿真 系统 中 的 并 发 活动 








TURE 


I 协 程 


16.1 生成 器 如 何 进 化 成 协 程 


协 程 的 底层 架构 在 “PEP 342 一 Coroutines via Enhanced 

Generators” (https://www.python.org/dev/peps/pep-0342/) 中 定义 ， 并 在 Python 2.5 (2006 

年 ) 实现 了 。 自 此 之 后 ，yield 关键 字 可 以 在 表达 式 中 使 用 ， 而 且 生 成 器 API 中 增加 了 

.Send(value) 方法 。 生 成 器 的 调用 方 可 以 使 用 .send(...) 方法 发 送 数据 ， 发 送 的 数据 
会 成 为 生成 器 函数 中 yield 表达 式 的 值 。 因 此 ， 生 成 器 可 以 作为 协 程 使 用 。 协 程 是 指 一 
个 过 程 ， 这 个 过 程 与 调用 方 协 作 ， 产 出 由 调用 方 提供 的 值 。 


除了 .send(...) 方法 ，PEP 342 还 添加 了 .throw(...) 和 .close() WE: 前 者 的 作 
用 是 让 调用 方 抛 出 异常 ， 在 生成 器 中 处 理 ; 后 者 的 作用 是 终止 生成 器 。 下 一 节 和 16.5 节 
会 说 明 这 些 方法 。 




































































协 程 最 近 的 演进 来 自 Python 3.3 (2012 Æ) 实现 的 “PEP 380—Syntax for Delegating to a 
Subgenerator” (https://www.python.org/dev/peps/pep-0380/) > PEP 380 对 生成 器 函数 的 句法 
做 了 两 处 改动 ， 以 便 更 好 地 作为 协 程 使 用 。 


。 现 在 ， 生 成 器 可 以 返回 一 个 值 ， 以 前 ， 如 果 在 生成 器 中 给 return 语句 提供 值 ， 会 抛 
出 SyntaxError 异常 。 


。 新 引入 了 yield from 句法 ， 使 用 它 可 以 把 复杂 的 生成 器 重 构成 小 型 的 嵌 套 生成 器 ， 
省 去 了 之 前 把 生成 器 的 工作 委托 给 子 生 成 器 所 需 的 大 量 样板 代码 。 


这 两 个 最 新 的 改动 分 别 在 16.6 节 和 16.7 节 讨 论 。 
按照 本 书 的 惯例 ， 我 们 先 从 基本 概念 和 示例 入 手 ， 然 后 再 深入 越 来 越 难以 理解 的 特性 。 















































16.2 用 作协 程 的 生成 器 的 基本 行为 
示例 16-1 展示 了 协 程 的 行为 。 
示例 16-1 可 能 是 协 程 最 简单 的 使 用 演示 








>>> def simple_coroutine(): # © 
print('-> coroutine started') 
x = yield #90 
print('-> coroutine received:', x) 


>>> my_coro = simple_coroutine() 

>>> my_coro # © 

<generator object simple _coroutine at @x10@c2be10> 
>>> next(my_coro) # @ 

-> coroutine started 

>>> my_coro.send(42) # O 

-> coroutine received: 42 

Traceback (most recent call last): # © 


StopIteration 














O 协 程 使 用 生成 器 函数 定义 : 定义 体 中 有 yield 关键 字 。 


© yield 在 表达 式 中 使 用 ， 如 果 协 程 只 需 从 客户 那里 接收 数据 ， 那 么 产 出 的 值 是 None 
一 一 这 个 值 是 隐 式 指定 的 ， 因 为 yield 关键 字 右 边 没有 表达 式 。 


O 与 创建 生成 器 的 方式 一 样 ， 调 用 函数 得 到 生成 器 对 象 。 


@ 首先 要 调用 next(...) 函数 ， 因 为 生成 器 还 没 启动 ， 没 在 yield 语句 处 暂停 ， 所 以 一 
开始 无 法 发 送 数 据 。 

O 调用 这 个 方法 后 ， 协 程 定义 体 中 的 yield 表达 式 会 计算 出 42; 现在 ， 协 程 会 恢复 ， 一 
直 运 行 到 下 一 个 yield 表达 式 ， 或 者 终止 。 


@ 这 里 ， 控制 权 流动 到 协 程 定义 体 的 末尾 ， 导 致 生成 器 像 往常 一 样 抛 出 StopIteration 


异常 。 


协 程 可 以 身 处 四 个 状态 中 的 一 个 。 当 前 状态 可 以 使 用 
inspect. ae T E A .) 函数 确定 ， 该 函数 会 返回 下 述 字 符 串 中 的 一 个 。 
















































































"GEN_CREATED' 
等 待 开始 执行 
"GEN_RUNNING' 


解释 器 正在 执行 。! 





























1 只 有 在 多 线程 应 用 中 才能 看 到 这 个 状态 。 此 外 ， 生 成 器 对 象 在 自己 身上 调用 getgeneratorstate 函数 也 行 ， 不 过 这 
样 做 没什么 用 。 






































"GEN_SUSPENDED' 
Æ yield 表达 式 处 暂停 。 


"GEN_CLOSED' 








因为 send 方法 的 参数 会 成 为 暂停 的 yield 表达 式 的 值 ， 所 以 ， 仅 当 协 程 处 于 暂停 状态 时 
才能 调用 send 方法 ， 例 如 my_coro.send(42)。 不 过 ， 如 果 协 程 还 没 激活 〈 即 ， 状 态 是 
'GEN_CREATED') ， 情 况 就 不 同 了 。 因 此 ， 始 终 要 调用 next(my_coro) 激活 协 程 一 一 也 
可 以 调用 my_coro.send(None)， 效 果 一 样 。 


如 果 创 建 协 程 对 象 后 立即 把 None 之 外 的 值 发 给 它 ， 会 出 现下 述 错误 























tk 











>>> my_coro = simple_coroutine() 
>>> my_coro.send(1729) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can't send non-None value to a just-started generator 

















注意 mien RIA,’ E KIR 得 相当 清楚 。 


最 先 调用 next(my_coro) 函数 这 一 步 通常 称 为 “ 预 激 ”(prime) 协 程 ( 即 ， 让 协 程 同 前 执 
行 到 第 一 个 yield 表达 式 ， 准 备 好 作为 活跃 的 协 程 使 用 ) 。 


下 面 举 个 产 出 多 个 值 的 例子 ， 以 便 更 好 地 理解 协 程 的 行为 ， 如 示例 16-2 所 示 。 
示例 16-2 产 出 两 个 值 的 协 程 





























>>> def simple coro2(a): 
print('-> Started: a =', a) 
b = yield a 
print('-> Received: b =", b) 
c = yield a+b 
print('-> Received: c =", c) 


>>> my_coro2 = simple_coro2(14) 
>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(my_coro2) @ 
"GEN_CREATED' 

>>> next(my_coro2) @ 

-> Started: a = 14 

14 

>>> getgeneratorstate(my_coro2) © 
"GEN_SUSPENDED' 

>>> my_coro2.send(28) @ 

-> Received: b = 28 





42 

>>> my_coro2.send(99) © 

-> Received: c = 99 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

StopIteration 

>>> getgeneratorstate(my_coro2) © 

"GEN_CLOSED' 








@ inspect.getgeneratorstate 函数 指明 ， 处 于 GEN_CREATED 状态 〈 即 协 程 未 启 
动 ) 。 


© 向 前 执行 协 程 到 第 一 个 yield 表达 式 ， 打 印 -> Started: a = 14 消息 ， 然 后 产 出 a 
的 值 ， 并 且 和 上 暂停， 等 待 为 b 赋值 。 


© getgeneratorstate 函数 指明 ， 处 于 GEN_SUSPENDED 状态 〈 即 协 程 在 yield 表达 式 
处 暂停 ) 。 


O 把 数字 28 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 28， 然 后 把 那个 数 绑 定 给 b。 
打印 -> Received: b = 28 消息 ， 产 出 a + b 的 值 (42) ， 然 后 协 程 暂停 ， 等 待 为 c 
赋值 。 


O 把 数字 99 发 给 暂停 的 协 程 ， 计 算 yield 表达 式 ， 得 到 99， 然 后 把 那个 数 绑 定 给 c。 
打印 -> Received: c = 99 消息 ， 然 后 协 程 终止 ， 导 致 生成 器 对 象 抛 出 


StopIteration 异常 。 

















@ getgeneratorstate 函数 指明 ， 处 于 GEN_CLOSED 状态 〈 即 协 程 执 行 结束 ) 。 
关键 的 一 点 是 ， 协 程 在 yield 关键 字 所 在 的 位 置 暂 停 执 行 。 前 面 说 过 ， 在 赋值 语句 中 ，= 
右边 的 代码 在 赋值 之 前 执行 。 因 此 ， 对 于 b = yield a 这 行 代码 来 说 ， 等 到 客户 端 代 码 
再 激活 协 程 时 才 会 设 定 b 的 值 。 这 种 行为 要 花 点 时 间 才 能 习惯 ， 不 过 一 定 要 理解 ， 这 样 
才能 弄 懂 异步 编程 中 yield 的 作用 《后 文 探讨 ) 。 
simple_coro2 协 程 的 执行 过 程 分 为 3 个 阶段 ， 如 图 16-1 所 示 。 

(1) 调用 next(my_coro2)， 打 印 第 一 个 消息 ， 然 后 执行 yield a， 产 出 数字 14。 


(2) 调用 my_coro2.send(28)， 把 28 赋值 给 b， 打 印 第 二 个 消 轧 ， 然 后 执行 yield a + 
b， 产 出 数字 42。 


(3) 调用 my_coro2.send(99)， 把 99 赋值 给 c， 打 印 第 三 个 消息 ， 协 程 终止 。 




































































>>> my_coro2 = simple_coro2(14) 


def simple_coro2(a): | >>> next(my_coro2) A 


print('-> Started: a =', a) @ -> Started: a = 14 

b =|yield a 14 Ne A L LLL LLL LLL. 
print('-> Received: b =', b) >>> my_coro2.send(28) 

c =|yield a + b @©@ -> Received: b = 28 

print('-> Received: c =', c) 42 


>>> my_coro2.send(99) 
@ -> Received: c = 99 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


16-1: 执行 simple_coro2 协 程 的 3 个 阶段 (注意 ， 各 个 阶段 都 在 yield 表达 式 中 
结束 ， 而 且 下 一 个 阶段 都 从 那 一 行 代码 开始 ， 然 后 再 把 yield 表达 式 的 值 赋 给 变量 ) 


下 面 来 看 一 个 稍微 复杂 的 协 程 示例 。 


16.3 示例: 使 用 协 程 计算 移动 平均 值 


第 7 章 讨论 闭 包 时 ， 我 们 分 析 了 如 何 使 用 对 象 计 算 移 动 平均 值 : 示例 7-8 定义 的 是 一 个 简 
单 的 类 ; 示例 7-14 定义 的 是 一 个 高 阶 函 数 ， 用 于 生成 一 个 闭 包 ， 在 多 次 调用 之 间 跟 踪 
total 和 count 变量 的 值 。 示 例 16-3 展示 如 何 使 用 协 程 实现 相同 的 功能 。? 














“这 个 示例 的 灵感 来 自 Jacob Holm 在 Python-ideas 邮件 列表 中 发 布 的 一 个 代码 片段 ， 他 发 布 的 消息 题 为 “Yield-From: 

Finalization guarantees” (https//mail.python.org/pipermai/python-ideas/2009-Apriy003841.html〉。 在 那个 消息 的 后 续 回 复 中 ， 
那 段 代码 有 几 个 变 体 。Holm 在 003912 号 消息 (https;//mailpython.org/pipermail/python-ideas/2009-Apriy003912.html〉 中 进 
一 步 说 明了 自己 的 想法 。 







































































示例 16-3 coroaverager0.py: 定义 一 个 计算 移动 平均 值 的 协 程 





def averager(): 

total = 0.0 

count = 6 

average = None 

while True: @ 
term = yield average @ 
total += term 
count += 1 
average = total/count 








@ 这 个 无 限 循环 表明 ， 只 要 调用 方 不 断 把 值 发 给 这 个 协 程 ， 它 就 会 一 直接 收 值 ， 然 后 生 
成 结果 。 仅 当 调 用 方 在 协 程 上 调用 .close() 方法 ， 或 者 没有 对 协 程 的 引用 而 被 垃圾 回收 
程序 回收 时 ， 这 个 协 程 才 会 终止。 


O 这 里 的 yield 表达 式 用 于 和 暂停 执行 协 程 ， 把 结果 发 给 调用 方 ， 还 用 于 接收 调用 方 后 面 
发 给 协 程 的 值 ， 恢 复 无 限 循环 。 


使 用 协 程 的 好 处 是 ，total 和 count 声明 为 局 部 变量 即 可 ， 无 需 使 用 实例 属性 或 闭 包 在 
多 次 调用 之 间 保 持 上 下 文 。 示 例 16-4 是 使 用 averager 协 程 的 doctest. 


示例 16-4 coroaverager0.py: 示例 16-3 中 定义 的 移动 平均 值 协 程 的 doctest 






































>>> coro avg = averager() © 
>>> next(coro_avg) @ 

>>> coro_avg.send(10) © 
10.0 

>>> coro_avg.send(30) 

20.0 

>>> coro_avg.send(5) 

15.0 








O 创建 协 程 对 象 。 
@ 调用 next 函数 ， 预 激 协 程 。 











O 计算 移动 平均 值 : 多 次 调用 .send(...) 方法 ， 产 出 当前 的 平均 值 。 


在 上 述 doctest 中 (示例 16-4) ， 调 用 next(coro_avg) 函数 后 ， 协 程 会 向 前 执行 到 
yield 表达 式 ， 产 出 average 变量 的 初始 值 一 None， 因 此 不 会 出 现在 控制 台中 。 此 
时 ， 协 程 在 yield 表达 式 处 暂停 ， 等 到 调用 方 发 送 值 。coro_avg.send(16) 那 一 行 发 送 
一 个 值 ， 激 活 协 程 ， 把 发 送 的 值 赋 给 term， 并 更 新 total. count 和 average 三 个 变量 
的 值 ， 然 后 开始 while 循环 的 下 一 次 迭代 ， 产 出 average 变量 的 值 ， 等 待 下 一 次 为 
term 变量 赋值 。 


细心 的 读者 可 能 迫切 地 想 知道 如 何 终止 执行 averager 实例 (如 coro_avg) ， 因 为 定义 
体 中 有 个 无 限 循环 。16.5 节 会 讨论 这 个 话题 。 


讨论 如 何 终止 协 程 之 前 ， 我 们 要 先 谈 谈 如 何 启 动 协 程 。 使 用 协 程 之 前 必须 预 激 ， 可 是 这 一 
ais 忘记 。 为 了 避免 忘记 ， 可 以 在 协 程 上 使 用 一 个 特殊 的 装饰 器 。 接 下 来 介绍 这 样 一 个 
装饰 器 。 






































16.4 Fils FEW Ae has 


如 果 不 预 激 ， 那 么 协 程 没 什么 用 。 调 用 my_coro.send(x) 之 前 ， 记 住 一 定 要 调用 
next(my_coro)。 为 了 简化 协 程 的 用 法 ， 有 时 会 使 用 一 个 预 激 装 饰 器 。 示 例 16-5 中 的 
coroutine 装饰 器 是 一 例 。3 








3 网 上 有 多 个 类 似 的 装饰 器 。 这 个 改 自 ActiveState 中 的 一 个 诀 容 








“Pipeline made of 


coroutines” (http://code.activestate.com/recipes/578265-pipeline-made-of-coroutines/) ， 作 者 是 Chaobin Tang， 而 他 是 受到 了 





David Beazley 的 启发 。 


示例 16-5 coroutil.py: 预 激 协 程 的 装饰 器 





from functools import wraps 


def coroutine(func): 
"" "装饰 器 : 向 前 执行 到 第 一 个 `yield 表达 式 ， 预 激 ` func """ 
@wraps (func) 
def primer(*args,**kwargs): © 
gen = func(*args,**kwargs) © 
next(gen) © 
return gen @ 
return primer 











@ 把 被 装饰 的 生成 器 函数 替换 成 这 里 的 primer 函数 ;调用 primer 函数 时 ， 返 回 预 激 后 


的 生成 器 。 

四 调用 被 装饰 的 函数 ， 获 取 生 成 器 对 象 。 
O 预 激 生成 器 。 

O 返回 生成 器 。 


示例 16-6 展示 @coroutine 装饰 器 的 用 法 。 请 与 示例 16-3 对 比 。 





示例 16-6 coroaveragerl.py: 使 用 示例 16-5 中 定义 的 @coroutine 装饰 器 定义 并 测 
试 计算 移 动 平 均值 的 协 程 











于 计算 移动 平均 值 的 协 程 











>>> coro avg = averager() © 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(coro avg) @ 
"GEN_SUSPENDED' 

>>> coro_avg.send(10) © 

10.0 

>>> coro_avg.send(3@) 

20.0 

>>> coro_avg.send(5) 





15.0 


from coroutil import coroutine @ 


@coroutine © 
def averager(): © 
total = 0.0 
count = 6 
average = None 
while True: 
term = yield average 
total += term 
count += 1 
average = total/count 








@ 调用 averager() 函数 创建 一 个 生成 器 对 象 ， 在 coroutine 装饰 器 的 primer 函数 中 
已 经 预 激 了 这 个 生成 器 。 


© getgeneratorstate 函数 指明 ， 处 于 GEN_SUSPENDED 状态 ， 因 此 这 个 协 程 已 经 准备 
好 ， 可 以 接收 值 了 。 


© 可 以 立即 开始 把 值 发 给 coro_avg 一 一 这 正 是 coroutine 装饰 器 的 目的 。 

@ 导入 coroutine 装饰 器 。 

O 把 装饰 器 应 用 到 averager 函数 上 。 

O 函数 的 定义 体 与 示例 16-3 完全 一 样 。 

很 多 框架 都 提供 了 处 理 协 程 的 特殊 装饰 器 ， 不 过 不 是 所 有 装饰 器 都 用 于 预 激 协 程 ， 有 些 会 
提供 其 他 服务 ， 例 如 勾 入 事件 循环 。 比 如 说 ， 异 步 网 络 库 Tornado 提供 了 tornado.gen 
装饰 器 Chttp://tornado.readthedocs.org/en/latest/gen.html) 。 

使 用 yield from 句法 《参见 16.7 节 ) 调用 协 程 时 ， 会 自动 预 激 ， 因 此 与 示例 16-5 中 的 
@coroutine 等 装饰 器 不 兼容 。Python 3.4 标准 库 里 的 asyncio.coroutine 装饰 器 (第 
18 章 介绍 ) 不 会 预 激 协 程 ， 因 此 能 兼容 yield from 句法 。 


接 下 来 探讨 协 程 的 重要 特性 一 一 用 于 终止 协 程 ， 以 及 在 协 程 中 抛 出 异常 的 方法 。 




































































16.5 EFEM E ay Ah FE 


协 程 中 未 处 理 的 异常 会 向 上 冒 泡 ， 传 给 next 函数 或 send 方法 的 调用 方 〈 即 触发 协 程 的 
WH) 。 示 例 16-7 举例 说 明 如 何 使 用 示例 16-6 中 由 装饰 器 定义 的 averager 协 程 。 


示例 16-7 未 处 理 的 异常 会 导致 协 程 终止 





















































>>> from coroaverager1 import averager 
>>> coro_avg = averager() 

>>> coro_avg.send(40) #@ 

40.0 

>>> coro_avg.send(5@) 

45.0 

>>> coro_avg.send('spam') #@ 
Traceback (most recent call last): 


TypeError: unsupported operand type(s) for +=: 'float' and 'str' 
>>> coro_avg.send(60) # © 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 


@ 使 用 @coroutine 装饰 器 装饰 的 averager 协 程 ， 可 以 立即 开始 发 送 值 。 
O 发 送 的 值 不 是 数字 ， 导 致 协 程 内 部 有 异常 抛 出 。 
O 由 于 在 协 程 内 没有 处 理 异 常 ， 协 程 会 终止 。 如 果 试 图 重新 激活 协 程 ， 会 抛 出 


ai 


StopIteration +713 © 
出 错 的 原因 是 ， 发 送 给 协 程 的 "spam' 值 不 能 加 到 total 变量 上 。 


示例 16-7 暗示 了 终止 协 程 的 一 种 方式 : 发 送 某 个 哨 符 值 ， 让 协 程 退 出 。 内 置 的 None 和 

Ellipsis 等 常量 经 常用 作 哨 符 什 。 Ellipsis 的 优点 是 ， 数据 流 中 不 入 常 有 这 个 值 。 我 
还 见 过 有 人 把 StopIteration 类 《〈 类 本 身 ， 而 不 是 实例 ， 也 不 抛 出 ) 作为 哨 符 值 ， 也 就 
是 说 ， 是 像 这 样 使 用 的 : my_coro.send(StopIteration). 


Python 2.5 开始 ， 客 户 代 码 可 以 在 生成 器 对 象 上 调用 两 个 方法 ， 显 式 地 把 异常 发 给 协 
o 































































































这 两 个 方法 是 throw 和 close. 
generator.throw(exc_type[, exc_value[, traceback]]) 


致使 生成 器 在 暂停 的 yield 表达 式 处 抛 出 指定 的 异常 。 如 果 生 成 器 处 理 了 抛 出 的 异 
第 ， 代 码 会 癌 前 执行 到 下 一 个 yield 表达 式 ， 而 产 出 的 值 会 成 为 调用 generator. throw 
返回 值 。 如 果 生 成 器 没有 处 理 抛 出 的 异常 ， 异 常会 同上 冒 泡 ， 传 到 调用 方 的 上 
FX 
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generator.close() 


致使 生成 器 在 暂停 的 yield 表达 式 处 抛 出 GeneratorExit 异常 。 如 果 生 成 器 没有 处 
或 者 抛 出 了 StopIteration 异常 (通常 是 指 运 行人 到 E) ， 调 用 方 不 会 报 

。 如 果 收 到 GeneratorExit 异常 ， 生 成 器 一 定 不 能 产 出 值 ， 否 则 解释 器 会 抛 出 
RS 异常 。 生成 器 抛 出 的 其 他 异常 会 回 上 冒 泡 ， 传 给 调用 方 。 

















rs 





























~ EREN AIEI BT NRE Python 语言 参考 手册 中 ， 
JL6.2.9.1.Generator-iterator 

methods” Chttps://docs.python.org/3/reference/expressions.html#generator-iterator- 
methods) 。 


下 面 举例 说 明 如 何 使 用 close 和 throw 方法 控制 协 程 。 示 例 16-8 列 出 的 是 接 下 来 的 例子 
使 用 的 demo_exc_handling 函数 。 


示例 16-8 coro_exc_demo.py: 学 习 在 协 程 中 处 理 异 常 的 测试 代码 





























class DemoException(Exception): 
"" 为 这 次 演示 定义 的 异常 类 型 。""" 





def demo_exc_handling(): 
print('-> coroutine started') 


while True: 
try: 
x = yield 
except DemoException: © 
print('*** DemoException handled. Continuing...') 
else: @ 


print('-> coroutine received: {!r}'.format(x)) 
raise RuntimeError('This line should never run.') © 











whe 


@ 特别 处 理 DemoException 异常 。 
O 如 果 没 有 异常 ， 那 么 显示 接收 到 的 值 。 
O 这 一 行 永远 不 会 执行 。 


示例 16-8 中 的 最 后 一 行 代码 不 会 执行 ， 因 为 只 有 未 处 理 的 异常 才 会 中 止 那 个 无 限 循环 ， 
而 一 旦 出 现 未 处 理 的 异常 ， 协 程 会 立即 终止 。 


demo_exc_handling 函数 的 常规 用 法 如 示例 16-9 所 示 。 





















































示例 16-9 激活 和 关闭 demo_exc_handling， 没 有 异常 








>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 


>>> exc_coro.send(22) 

-> coroutine received: 22 

>>> exc_coro.close() 

>>> from inspect import getgeneratorstate 
>>> getgeneratorstate(exc_coro) 
"GEN_CLOSED' 























如 果 把 DemoException 异常 传 入 demo_exc_handling 协 程 ， 它 会 处 理 ， 然 后 继续 运 





行 ， 如 示例 16-10 所 示 。 


示例 16-10 把 DemoException 异常 传 入 demo_exc_handling 不 会 导致 协 程 中 止 








>>> exc_coro = demo_exc_handling() 

>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 

>>> exc_coro.throw(DemoException) 

*** DemoException handled. Continuing... 
>>> getgeneratorstate(exc_coro) 
"GEN_SUSPENDED' 
































但 是 ， 如 果 传 入 协 程 的 异常 没有 处 理 ， 协 程 会 停止 ， 即 状态 变 成 "GEN_CLOSED ' 。 示 例 


16-11 演示 了 这 种 情况 。 
示例 16-11 如果 无 法 处 理 传 入 的 异常 ， 协 程 会 终止 




















il 














>>> exc_coro = demo_exc_handling() 
>>> next(exc_coro) 

-> coroutine started 

>>> exc_coro.send(11) 

-> coroutine received: 11 

>>> exc_coro.throw(ZeroDivisionError) 
Traceback (most recent call last): 


ZeroDivisionError 
>>> getgeneratorstate(exc_coro) 
"GEN_CLOSED' 





























如 果 不 管 协 程 如 何 结束 都 想 做 些 清 理工 作 ， 要 把 协 程 定 义 体 中 相关 的 代码 放 入 
try/finally 块 中 ， 如 示例 16-12. 











示例 16-12 coro finally demo.py: 使 用 try/finally 块 在 协 程 终止 时 执行 操作 





class DemoException(Exception): 


""" 为 这 次 演示 定义 的 异常 类 型 。""" 








def demo_finally(): 
print('-> coroutine started') 
try: 
while True: 
try: 
x = yield 





except DemoException: 
print('*** DemoException handled. Continuing...') 
else: 
print('-> coroutine received: {!r}'.format(x)) 
finally: 
print('-> coroutine ending’ ) 

















Python 3.3 引入 yield from WEERA — SIERRA KEM TERR. Fat 
原因 是 让 协 程 更 方便 地 返回 值 。 请 继续 往 下 读 ， 了 解 详情 。 























16.6 ”让 协 程 返回 值 


示例 16-13 是 averager 协 程 的 不 同 版 本 ， 这 一 版 会 返回 结果 。 为 了 说 明 如 何 返 回 值 ， 
次 激活 协 程 时 不 会 产 出 移动 平均 值 。 这 么 做 是 为 了 强调 某 些 协 程 不 会 产 出 值 ， 而 是 在 最 后 
返回 一 个 值 〈 通 常 是 某 种 累计 值 ) 。 

示例 16-13 中 的 averager 协 程 返回 的 结果 是 一 个 namedtuple， 两 个 字段 分 别 是 项 数 
(count) 和 平均 值 Caverage) 。 我 本 可 以 只 返回 平均 值 ， 但 是 返回 一 个 元 组 可 以 获得 
累积 数据 的 男 一 个 重要 信息 一 一 项 数 。 


示例 16-13 coroaverager2.py: 定义 一 个 求 平均 值 的 协 程 ， 让 它 返 回 一 个 结果 






































from collections import namedtuple 


Result = namedtuple('Result', ‘count average') 


def averager(): 
total = 0.0 
count = 6 
average = None 
while True: 
term = yield 
if term is None: 
break @ 
total += term 
count += 1 
average = total/count 
return Result(count, average) @ 











@ 为 了 返回 值 ， 协 程 必须 正常 终止 ， 因 此 ， 这 一 版 averager 中 有 个 条 件 判断 ， 以 便 退 
出 累计 循环 。 


@ 返回 一 个 namedtuple， 包 含 count 和 average 两 个 字段 。 在 Python 3.3 之 前 ， 如 果 
生成 器 返回 值 ， 解 释 器 会 报 句法 错误 。 


下 面 在 控制 台中 说 明 如 何 使 用 新 版 averager， 如 示例 16-14 所 示 。 














示例 16-14 coroaverager2.py: 说 明 averager 行为 的 doctest 


>>> coro_avg = averager() 

>>> next(coro_avg) 

>>> coro_avg.send(10) © 

>>> coro_avg.send(30@) 

>>> coro_avg.send(6.5) 

>>> coro_avg.send(None) @ 
Traceback (most recent call last): 


StopIteration: Result(count=3, average=15.5) 








O 这 一 版 不 产 出 值 。 


O 发 送 None 会 终止 循环 ， 导 致 协 程 结束 ， 返 回 结果 。 一 如 既往 ， 生 成 器 对 象 会 抛 出 
StopIteration 异常 。 异 常 对 象 的 value 属性 保存 着 返回 的 值 。 


注意 ，return 表达 式 的 值 会 偷偷 传 给 调用 方 ， 人 aad 异常 的 一 个 属 
性 。 这 样 做 有 点 不 合 常理 ， 但 是 能 保留 


StopIteration 异常 。 


示例 16-15 展示 如 何 获取 协 程 返回 的 值 。 






































示例 16-15 捕获 StopIteration 异常 ， 获 取 averager 返回 的 值 








>>> coro_avg = averager() 

>>> next(coro_avg) 

>>> coro_avg.send(10) 

>>> coro_avg.send(3@) 

>>> coro_avg.send(6.5) 

>>> try: 
coro_avg.send(None) 

. except StopIteration as exc: 

result = exc.value 

>>> result 

Result(count=3, average=15.5) 














获取 协 程 的 返回 值 虽然 要 绕 个 圈子 ， 但 这 是 PEP 380 定义 的 方式 ， 当 我 们 意识 到 这 一 点 之 
后 就 说 得 通 了 : yield from 结构 会 在 内 部 自动 捕获 StopIteration 异常 。 这 种 处 理 方 
式 与 For 循环 处 理 le ed 异常 的 方式 一 样 : 循环 机 制 使 用 用 户 易于 理 解 的 方式 
处 理 异 常 。 对 yield from 结构 来 说 ， 解 释 器 不 仅 会 捕获 StopIteration 异常 ， 还 会 把 
value 属性 的 值 变 成 yield from 表达 式 的 值 。 可 惜 ， 我 们 无 法 在 控制 台中 使 用 交互 的 方 
式 测试 这 种 行为 ， 因 为 在 函数 外 部 使 用 yield from (以 及 yield) 会 导致 句法 出 错 。4 
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4iPython 有 个 扩展 yf Chttps://github.com/tecki/ipython-yf) ， 安 装 这 个 扩展 后 可 以 在 iPython 控制 台中 直接 执行 
yield from。 这 个 扩展 用 于 测试 异步 代码 ， 可 以 结合 asyncio 模块 使 用 。 这 个 扩展 已 经 提交 为 Python 3.5 的 补丁 ， 但 
是 没有 被 接受 。 参 见 Python 缺陷 追踪 系统 中 的 22412 号 工 单 : Towards an asyncio-enabled command 

line Chttp//bugs.python.org/issue22412) 。 















































下 一 节 会 举例 说 明 如 何 使 用 yield from 结构 按照 PEP 380 定义 的 方式 获取 averager 协 
程 返回 的 值 。 下 面 讨论 yield from 结构 。 


16.7 使 用 yield from 








aus yield from 是 全 新 的 语言 结构 。 它 的 作用 比 yield 多 很 多 ， 因 此 人 们 认为 





继续 使 用 那个 关键 字 多 少 会 引起 误解 。 











在 其 他 语言 中 ， 类 似 的 结构 使 用 await 关键 字 ， 


这 个 名 称 好 多 了 ， 因 为 它 传 达 了 至 关 重 要 的 一 点 : 在 生成 器 gen 中 使 用 yield from 
subgen() 时 ，subgen 会 获得 控制 权 ， 把 产 出 的 值 传 给 gen 的 调用 方 ， 即 调用 方 可 以 直 








接 控制 subgen。 与 此 同时 ，gen 会 阻塞 ， 等 待 subgen 终止 。 





5 写作 本 书 时 ， 有 个 PEP 正在 讨论 
syntax Chttps://www.python.org/dev/peps/pep-0492/) 。 








第 14 Hitt, yield from 可 用 于 简化 for 循环 中 的 yield 表达 


中 ， 提 议 增 加 await 和 async 关键 字 : PEP 492—Coroutines with async and await 


大 式 。 例 如 : 





>>> def gen(): 
‘ for c in 'AB': 
yield c 
for i in range(1, 3): 
yield i 


535 list(gen()) 
['A', 'B', 1, 2] 





可 以 改写 为 ; 





>>> def gen(): 
yield from 'AB' 
yield from range(1, 3) 


>>> > list(gen()) 
['A', 'B', 1, 2] 








14.10 节 首次 提 到 yield from 时 举 了 一 个 例子 ， 
ZN o 


6 示例 16-16 仅 供 教学 使 用 。itertools 模块 提供 了 优化 版 chain 函数 ， 使 用 C 语言 编写 。 


示例 16-16 使 用 yield from 链接 可 迭代 的 对 象 





演示 这 个 结构 的 用 法 ， 如 示例 16-16 所 





>>> def chain(*iterables): 
for it in iterables: 
yield from it 
>>> S "ABC ' 
>>> t = tuple(range(3)) 
>>> list(chain(s, t)) 
['A', 'B', "C's ð, 1, 2] 





在 Beazley 与 Jones 的 《Python Cookbook (第 


3 版 ) 中 文 版 》 一 书 中 ， 
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套 型 的 序列 ”一 节 有 个 稍微 复杂 《不 过 更 有 用 ) yield from 示例 源码 在 GitHub 
H, https://github.com/dabeaz/python- 
cookbook/blob/master/src/4/how_to_flatten_a_nested_sequence/example.py) o 


yield from x 表达 式 对 x 对 象 所 做 的 第 一 件 事 是 ， 调 用 iter(x)， 从 中 获取 迭代 器 。 
此 ，x 可 以 是 任何 可 迭代 的 对 象 。 


可 是 ， 如 果 yield from 结构 唯一 的 作用 是 蔡 代 产 出 值 的 嵌 套 for 循环 ， 这 个 结构 很 有 





























可 能 不 会 添加 到 Python 语言 中 。yield from 结构 的 本 质 作 用 无 法 通过 简单 的 可 迭代 对 象 
说 明 ， 而 要 发 散 思维 ， 使 用 峙 套 的 生成 器 。 因 此 ， 引 入 yield from 结构 的 PEP 380 才 起 
J “Syntax for Delegating to a Subgenerator”(“ 把 职责 委托 给 子 生成 器 的 句法 ”) 这 个 标题 。 


yield from 的 主要 功能 是 打开 双向 通道 ， 把 最 外 层 的 调用 方 与 最 内 层 的 子 生 成 器 连接 起 
来 ， 这 样 二 者 可 以 直接 发 送 和 产 出 值 ， 还 可 以 直接 传 入 异常 ， 而 不 用 在 位 于 中 间 的 协 程 中 
添加 大 量 处 理 异 弟 的 样板 代 但 。 有 了 这 个 结构 ， 协 程 可 以 通过 以 前 不 可 能 的 方式 委托 职 





























AREH yield from 结构 ， 就 要 大 幅 改 动 代码 。 为 了 说 明 需 要 改动 的 部 分 ，PEP 380 使 
用 了 一 些 专 门 的 术语 。 


委派 生成 器 


含 yield from <iterable> 表达 式 的 生成 器 函数 。 


子 生成 器 


从 yield from 表达 式 中 <iterable> 部 分 获取 的 生成 器 。 这 就 是 PEP 380 的 标题 
(“Syntax for Delegating to a Subgenerator”) 中 所 说 的 “ 子 生 成 器 ”(subgenerator) 。 


调用 方 


PEP 380 使 用 * 调 用 方 * 这 个 术语 指 代 调 用 委派 生成 器 的 客户 端 代码 。 在 不 同 的 语 境 
中 ， 我 会 使 用 “客户 端 " 代 痊 “ 调 用 方 ” 以 此 与 委派 生成 器 (也 是 调用 方 ， 因 为 它 调用 了 子 
生成 器 ) 区 分 开 。 





~ PEP 380 207i (EI (an Ik Tia] fa RE ae ESTE AA, ANR 


生成 器 也 是 迭代 器 。 因 此 ， 我 选择 使 用 “ 子 生成 器 ”这 个 术语 ， 与 PEP 380 的 标题 
(“Syntax for Delegating to a Subgenerator”) 保持 一 致 。 然 而 ， 子 生成 器 可 能 是 简单 的 
迭代 器 ， 只 实现 了 next ”方法 ; 但 是 ，yield from 也 能 处 理 这 种 子 生 成 器 。 不 
过 ， 引 入 yield from 结构 的 目的 是 为 了 支持 实现 了 __next_、send、close 和 
throw 方法 的 生成 器 。 


示例 16-17 能 更 好 地 说 明 yield from 结构 的 用 法 。 图 16-2 把 该 示例 中 各 个 相关 的 部 分 





标识 出 来 了 。 


| ?图 16-2 的 灵感 来 
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自 Paul Sokolovsky 224 
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(Chttp//flupy.org/resources/yield-from.pdf) 。 


调用 方 FIRER ae 子 生成 器 
main grouper averager 








def main(data): 
results = {} 
for key, values tn data.itens(): 
group = grouper(results, key) 
next(group) 
for value in values: 


def averager(): 
total = 0.9 
count = © 
average = None 
while True: 
term = yield 
if term is None: 
break 
total + tern 
count += 
average = total/count 
return Result(count, average) 

















def grouper(results, key): 
while True: 
results[key] = yield from averager() 






group.send(value) 
group.send(None) 


report(results) 





图 16-2: 委派 生成 器 在 yield from 表达 式 处 暂停 时 ， 调 用 方 可 以 直接 把 数据 发 给 子 
nes We 子 生成 器 返回 之 后 ， 解 释 器 会 抛 出 
StopIteration 异常 ， 并 把 返回 值 附加 到 异常 对 象 上 ， 此 时 委派 生成 器 会 恢复 


coroaverager3. py 脚本 从 一 个 字典 中 读 取 虚构 的 七 年 级 男女 学 生 的 体重 和 身高 。 例 如 ， 
‘boys;m' 键 对 应 于 9 个 男 学 生 的 身高 〈 单 位 是 米 ) ， 'girls;kg' 键 对 应 于 10 个 女 学 生 
的 体重 〈 单 位 是 千克 ) 。 这 个 脚本 把 各 组 数据 传 给 前 面 定义 的 averager 协 程 ， 然 后 生成 
一 个 报告 ， 如 下 所 示 : 

















$ python3 coroaverager3.py 
9 boys averaging 40.42kg 
9 boys averaging 1.39m 


10 girls averaging 42.04kg 
10 girls averaging 1.43m 





示例 16-17 中 列 出 的 代码 显然 不 是 解决 这 个 问题 最 简单 的 方案 ， 但 是 通过 实例 说 明了 
yield from 结构 的 用 法 。 这 个 示例 的 灵感 来 自 “Whats New in Python 3.3” 一 文 
(https://docs.python.org/3/whatsnew/3.3.html#pep-380) 给 出 的 例子 。 











示例 16-17 coroaverager3.py: 使 用 yield from 计算 平均 值 并 输出 统计 报告 





from collections import namedtuple 


Result = namedtuple('Result', ‘count average’ ) 


# 子 生 成 器 
def averager(): © 
total = 0.0 
count = 6 
average = None 
while True: 
term = yield @ 
if term is None: © 
break 
total += term 
count += 1 
average = total/count 
return Result(count, average) @ 





# 委派 生成 器 
def grouper(results, key): © 
while True: 
results[key] = yield from averager() @ 

















# 客户 端 代 码 ， 即 调用 方 
def main(data): © 
results = {} 
for key, values in data.items(): 
group = grouper(results, key) © 
next(group) 四 
for value in values: 
group.send(value) @ 
group.send(None) # 重要 ! @ 

















# print(results) # 如 果 要 调试 ， 去 掉 注释 
report(results) 








# 输出 报告 
def report(results): 
for key, result in sorted(results.items()): 
group, unit = key.split(';') 
print('{:2} {:5} averaging {:.2}{}'.format( 
result.count, group, result.average, unit)) 


data = { 
"girls;kg': 
[40.9, 38.5, 44.3, 42.2, 45.2, 41.7, 44.5, 38.0, 40.6, 44.5], 
“girls;m': 
[1.6, 1.51, 1.4, 1.3, 1.41, 1.39, 1.33, 1.46, 1.45, 1.43], 
“boys;kg': 
[39.0, 40.8, 43.2, 40.8, 43.1, 38.6, 41.4, 40.6, 36.3], 
"boys;m': 
[1.38, 1.5, 1.32, 1.25, 1.37, 1.48, 1.25, 1.49, 1.46], 
} 
if _ name_ == '_ main_': 


main(data) 











@ 与 示例 16-13 中 的 averager 协 程 一 样 。 这 里 作为 子 生 成 器 使 用 。 
O main 函数 中 的 客户 代码 发 送 的 各 个 值 绑 定 到 这 里 的 term 变量 上 。 


oe 如 果 不 这 么 做 ， 使 用 yield from 调用 这 个 协 程 的 生成 器 会 永 
远 阻 塞 。 


四 返回 的 Result 会 成 为 grouper 函数 中 yield from 表达 式 的 值 。 
O grouper 是 委派 生成 器 。 














einen averager 实例 ; 每 个 实例 都 是 作为 协 程 使 用 的 生成 
器 对 象 。 


@ grouper 发 送 的 每 个 值 都 会 经 由 yield from 处 理 ， 通 过 管道 传 给 averager 实 

fil. grouper 会 在 yield from 表达 式 处 和 暂停， 等待 averager 实例 处 理 客户 端 发 来 的 
值 。averager 实例 运行 完毕 后 ， 返 回 的 值 绑 定 到 results[key] 上 。while 循环 会 不 断 
创建 averager 实例 ， 处 理 更 多 的 值 。 


O main 函数 是 客户 端 代码 ， 用 PEP 380 定义 的 术语 来 说 ， 是 “调用 方 "”。 这 是 驱动 一 切 的 
























































group 是 调用 ee 函数 得 到 的 生成 器 对 象 ， 传 给 grouper 函数 的 第 一 个 参数 是 
results， 用 于 收集 结果 ; 第 二 个 参数 是 某 个 键 。group 作为 协 程 使 用 。 


O 预 激 group 协 程 。 


D 把 各 个 value 传 给 grouper。 传 入 的 值 最 终 到 达 averager 函数 中 term = yield 那 
一 行 ，grouper 永远 不 知道 传 入 的 值 是 什么 。 


@ jf None 传 入 grouper， 导 致 当前 的 averager 实例 终止 ， 也 让 grouper 继续 运行 ， 
再 创建 一 个 averager 实例 ， 处 理 下 一 组 值 。 


示例 16-17 中 最 后 一 个 标号 前 面 有 个 注释 一 “重要 ! ”， 强 调 这 行 代码 
(group.send(None)) FEH: 终止 当前 的 averager 实例 ， 开 始 执行 下 一 个 。 如 果 
注释 掉 那 一 行 ， 这 个 脚本 不 会 输出 任何 报告 。 此 时 ， 把 main 函数 靠近 末尾 的 
print(results) 那 行 的 注释 去 掉 ， 你 会 发 现 ，results 字典 是 空 的 。 









































AI 研究 为 何 没 有 收集 到 数据 ， 能 检验 自己 有 没有 理解 yield from 结构 的 运作 方 
式 。 本 书 的 代码 仓库 中 有 coroaverager3.py 脚本 的 代码 
(https://github.com/fluentpython/example-code/blob/master/16- 
coroutine/coroaverager3.py) 。 原 因 说 明 如 下 。 


下 面 简要 说 明示 例 16-17 的 运作 方式 ， 还 会 说 明 把 main 函数 中 调用 group. send(None) 
那 一 行 代码 〈 带 有 “重要 ! ?注释 的 那 一 行 ) 去 掉 会 发 生 什 么 事 。 


。 外 层 for 循环 每 次 迭代 会 新 建 一 个 grouper 实例 ， 赋 值 给 group 变量 ，group 是 委 
派生 成 器 。 

。 调 用 next(group)， 预 激 委派 生成 器 grouper， 此 时 进入 while True 循环 ， 调 用 
子 生成 器 averager Ja, Æ yield from 表达 式 处 暂停 。 


。 内 层 for 循环 调用 group.send(value)， 直 接 把 值 传 给 子 生 成 器 averager。 同 
时 ， 当 前 的 grouper 实例 (group) Æ yield from 表达 式 处 暂停 。 


。 内 层 循环 结束 后 ，group 实例 依旧 在 yield from ， Klk, grouper 
函数 定义 体 中 为 results[key] 赋值 的 语句 还 没有 执行 















































。 如 果 外 层 for 循环 的 末尾 没有 group.send(None), WA averager 子 生成 器 永远 
不 会 终止 ， 委 派生 成 器 group 永远 不 会 再 次 激活 ， 因 此 永远 不 会 为 results[key] 
赋值 。 


。 外 层 for 循环 重新 迭代 时 会 新 建 一 个 grouper 实例 ， 然 后 绑 定 到 group 变量 上 。 前 
一 个 grouper 实例 〈 以 及 它 创建 的 尚未 终止 的 averager 子 生成 器 实例 ) 被 垃圾 回 
收 程序 回收 。 














Bes 这 个 试验 想 表 明 的 关键 一 点 是 ， 如 果子 生成 器 不 终止 ， 委 派生 成 器 会 在 
yield from 表达 式 处 永远 暂停 。 如 果 是 这 样 ， 程 序 不 会 向 前 执行 ， 因 为 yield 
from (5 yield 一 样 ) 把 控制 权 转 交 给 客户 代码 〈 即 ， 委 派生 成 器 的 调用 方 ) 了 。 
显然 ， 肯 定 有 任务 无 法 完成 。 


示例 16-17 展示 了 yield from 结构 最 简单 的 用 法 ， 只 有 一 个 委派 生成 器 和 一 个 子 生成 
器 。 因 为 委派 生成 器 相当 于 管道 ， 所 以 可 以 把 任意 数量 个 委派 生成 器 连接 在 一 起 : 一 个 委 
派生 成 器 使 用 yield from 调用 一 个 子 生 成 器 ， 而 那个 子 生成 器 本 身 也 是 委派 生成 器 ， 使 
FA yield from 调用 男 一 个 子 生成 器 ， 以 此 类 推 。 最 终 ， 这 个 链条 要 以 一 个 只 使 用 yield 
表达 式 的 简单 生成 器 结束 ; 不 过 ， 也 能 以 任何 可 迭代 的 对 象 结束 ， 如 示例 16-16 所 示 。 


任何 yield from 链条 都 必须 由 客户 驱动 ， 在 最 外 层 委 派生 成 器 上 调用 next(...) 函数 
或 .send(...) 方法 。 可 以 隐 式 调用 ， 例 如 使 用 for 循环 。 


下 面 综述 PEP 380 对 yield from 结构 的 正式 说 明 。 












































16.8 yield from 的 意义 


制定 PEP 380 时 ， 有 人 质疑 作者 Greg Ewing 提议 的 语义 过 于 复杂 了 。 他 的 回应 之 一 
是 :“ 对 人 类 来 说 ， 几 乎 所 有 最 重要 的 信息 都 在 靠近 顶部 的 某 个 段落 里 。” 他 还 引述 了 PEP 
380 草稿 中 的 一 段 话 ， 当 时 那 段 话 是 这 样 的 ; 


“把 迭代 器 当 作 生成 器 使 用 ， 相 当 于 把 子 生 成 器 的 定义 体内 联 在 yield from 表达 式 
中 。 此 外 ， 子 生成 器 可 以 执行 return 语句 ， 返 回 一 个 值 ， 而 返回 的 值 会 成 为 yield 
from KARKE. 78 


os 
































a? 
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自 Python-Dev 邮件 列表 中 的 一 个 消息 : “PEP 380 (yield from a subgenerator) comments” (AAi F 2009 4 3 H 21 
H, https://mail.python.org/pipermail/python-dev/2009-March/087385.html) 。 











PEP 380 中 已 经 没有 这 段 宽慰 人 心 的 话 ， 因 为 没有 涵盖 所 有 极端 情况 。 不 过 ， 一 开始 可 以 
这 样 粗略 地 说 。 

批准 后 的 PEP 380 在 “Proposal” 一 节 Chttps://www.python.org/dev/peps/pep-0380/#proposal ) 
分 六 点 说 明了 yield from 的 行为 。 这 里 ， 我 几乎 原封 不 动 地 引述 ， 不 过 把 有 歧义 的 “ 返 
代 器 ”一 词 都 换 成 了 “ 子 生 成 器 *， 还 做 了 进一步 说 明 。 示 例 16-17 阐明 了 下 述 四 点 。 


。 子 生成 费 产 出 的 值 都 直接 传 给 委派 生成 器 的 调用 方 ( 即 客户 端 代 码 〉。 
。 使 用 send() 方法 发 给 委派 生成 器 的 值 都 直接 传 给 子 生成 器 。 如 果 发 送 的 值 是 
None， 那 么 会 调用 子 生 成 器 的 __next__() 方法 。 如 果 发 送 的 值 不 是 None, AA 


调用 子 生 成 器 的 send() 方法 。 如 果 调 用 的 方法 抛 出 StopIteration 异常 ， 那 么 委 
派生 成 器 恢复 运行 。 任何 其 他 异 党 都 会 向 上 冒 泡 ， 传 给 委派 生成 器 。 


。 生 成 器 退出 时 ， 生 成 器 《或 子 生成 器 ) 中 的 return expr 表达 式 会 触发 
StopIteration(expr) 异常 殷 出 。 


e yield from 表达 式 的 值 是 子 生 成 器 终止 时 传 给 StopIteration 异常 的 第 一 个 参 



































yield from 结构 的 另外 两 个 特性 与 异常 和 终止 有 关 。 


。 传 入 委派 生成 器 的 异常 ， 除 了 GeneratorExit A throw() 77 
法 。 如 果 调 用 throw( ) 方法 时 抛 出 StopIteration 异常 ， 委 派生 成 器 恢复 运 
行 。StopIteration 之 外 的 异常 会 向 上 冒 泡 ， 人 给 委派 生成 器 。 


e 如 果 把 GeneratorExit 异常 传 入 委派 生成 器 ， 或 者 在 委派 生成 器 上 调用 close() 方 
法 ， 那 么 在 子 生 成 器 上 调用 close() 方法 ， 如 果 它 有 的 话 。 如 果 调 用 close() 方法 
导致 异常 抛 出 ， 那 么 异常 会 同上 冒 泡 ， 传 给 委派 生成 器 ; 否则 ， 委 派生 成 器 抛 出 


GeneratorExit 异常 。 


yield from 的 具体 语义 很 难 理解 ， 尤 其 是 处 理 异 常 的 那 两 点 。Greg Ewing 做 得 很 好 ， 在 
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PEP 380 中 使 用 英语 阐述 了 yield from 的 语义 。 


Ewing METRES EH Python 句法 ) 演示 了 yield from 的 行为 。 我 个 人 认为 值得 花 
时 间 研 究 PEP 380 中 的 伪 代 码 。 不 过 ， 那 段 伪 代码 长 达 40 行 ， 看 一 遍 很 难 理解 。 


若 想 研 究 那 段 伪 代码 ， 最 好 将 其 简化 ， 只 涵盖 yield from 最 基本 且 最 常见 的 用 法 。 


假设 yield from 出 现在 委派 生成 器 中 。 客 户 端 代 码 驱 动 着 委派 生成 器 ， 而 委派 生成 器 驱 
动 着 子 生成 器 。 那 么 ， 为 了 简化 涉及 到 的 逻辑 ， 我 们 假设 客户 端 没 有 在 委派 生成 器 上 调用 
.throw(...) 或 .close() 方法 。 此 外 ， 我 们 还 假设 子 生成 器 不 会 抛 出 异 营 ， 而 是 一 直 

运行 到 终止 ， 让 解释 器 抛 出 StopIteration 异常 。 


示例 16-17 中 的 脚本 就 做 了 这 些 简化 逻辑 的 假设 。 其 实 ， 在 真实 的 代码 中 ， 委 派生 成 器 应 
该 运行 到 结束 。 下 面 来 看 一 下 在 这 个 简化 的 美满 世界 中 ，yield from 是 如 何 运 作 的 。 


请 看 示例 16-18， 那 里 列 出 的 代码 是 委派 生成 器 的 定义 体 中 下 面 这 一 行 代码 的 扩充 : 


RESULT = yield from EXPR 


自己 试 着 理解 示例 16-18 中 的 逻辑 。 


示例 16-18 简化 的 伪 代 码 ， 等 效 于 委派 生成 器 中 的 RESULT = yield from EXPR 
语句 (这 里 针对 的 是 最 简单 的 情况 : 不 支持 .throw(...) 和 .close() 方 法， 而 且 
只 处 理 StopIteration 异常 ) 
















































































































































































_i = iter(EXPR) © 
try: 
_y = next(_i) @ 
except StopIteration as _e: 
_r = _e.value 
else: 
while 1: @ 
_s = yield y © 
try: 
_y = _i.send(_s) QO 
except StopIteration as e: @ 
_r = _e.value 
break 


RESULT = r O 








@ EXPR 可 以 是 任何 可 迭代 的 对 象 ， 因 为 获取 迭代 器 i (这 是 子 生 成 器 〉 使 用 的 是 
iter() 函数 。 


O 预 激 子 生成 器 :结果 保存 在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 


© 如 果 抛 出 StopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 给 _r 一 一 这 是 最 
简单 情况 下 的 返回 值 (RESULT) 。 




















O 运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生 成 器 之 间 的 通道 。 


O 产 出 子 生 成 器 当前 产 出 的 元 素 ， 等 待 调用 方 发 送 _s 中 保存 的 值 。 注 意 ， 这 个 代码 清单 
中 只 有 这 一 个 yield 表达 式 。 


O 尝试 让 子 生 成 器 向 前 执行 ， 转 发 调用 方 发 送 的 _s。 


O 如 果子 生成 器 抛 出 StopIteration 异常 ， 获 取 value 属性 的 值 ， 赋 值 给 _r， 然 后 退 
出 循环 ， 让 委派 生成 器 恢复 运行 。 


@ 返回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 
在 这 上段 简 化 的 伪 代 码 中 ， 我 保留 了 PEP 380 中 那 段 伪 代 码 使 用 的 变量 名 称 。 这 些 变 量 是 : 
i G& at) 

子 生成 器 
_y( 产 出 的 值 》 

子 生成 器 产 出 的 值 
r (结果 ) 

最 终 的 结果 《 即 子 生成 器 运行 结束 后 yield from 表达 式 的 值 ) 
_s (发 送 的 值 ) 

调用 方 发 给 委派 生成 器 的 值 ， 这 个 值 会 转发 给 子 生成 器 
) 
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e (Cr 
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异常 对 象 ( 在 这 段 简化 的 伪 代 码 中 始终 是 Stoplteration 实例 ) 




















除了 没有 处 理 .throw(...) 和 .close() 方法 之 外 ， 这 段 简化 的 伪 代 码 还 在 子 生成 器 上 
调用 .send(. .. ) 方法 ， 以 此 达到 客户 调用 next() 函数 或 .send(...) 方法 的 目的 。 首 
次 阅读 时 不 要 担心 这 些 细微 的 差别 。 前 面 说 过 ， 即 使 yield from 结构 只 做 示例 16-18 中 
展示 的 事情 ， 示 例 16-17 也 依旧 能 正常 运行 。 





















































但 是 ， 现 实情 况 要 复杂 一 些 ， 因 为 要 处 理 客户 对 .throw(...) 和 .close() 方法 的 调 
用 ， 而 这 两 个 方法 执行 的 操作 必 须 传 入 子 生成 器 。 此 外 ， 子 生成 器 可 能 只 是 纯粹 的 迭代 
器 ， 不 支持 .throw(...) 和 .close() 方法 ， 因 此 yield from 结构 的 逻辑 必须 处 理 这 
种 情况 。 如 果子 生成 器 实现 了 这 两 个 方法 ， 而 在 子 生成 器 内 部 ， 这 两 个 方法 都 会 触发 异常 
抛 出 ， 这 种 情况 也 必须 由 yield from 机 制 处 理 。 调 用 方 可 能 会 无 缘 无 故地 让 子 生成 器 自 
己 抛 出 异常 ， 实 现 yield from 结构 时 也 必须 处 理 这 种 情况 。 最 后 ， 为 了 优化 ， 如 果 调 用 
方 调 用 next(...) 函数 或 .send(None) 方法 ， 都 要 转交 职责 ， 在 子 生成 器 上 调用 

next(...) 函数 ; 仅 当 调用 方 发 送 的 值 不 是 None 时 ， 才 使 用 子 生 成 器 的 .send(...) 方 


YZ o 



































































































































为 了 方便 对 比 ， 下 面 列 出 PEP 380 中 扩充 yield from 表达 式 的 完整 伪 代 码 ， 而 且 加 上 了 
带 标 号 的 注解 。 示 例 16-19 中 的 代码 是 一 字 不 差 复 制 过 来 的 ， 只 有 标注 是 我 自己 加 的 。 


再 次 说 明 ， 示 例 16-19 中 的 代码 是 委派 生成 器 的 定义 体 中 下 面 这 一 个 语句 的 扩充 : 


RESULT = yield from EXPR 


示例 16-19 ” 伪 代 码 ， 等 效 于 委派 生成 器 中 的 RESULT = yield from EXPR 语句 


























_i = iter(EXPR) © 
try: 

_y = next(_i) @ 
except StopIteration as _e: 


_r=_e.value © 
else: 
while 1: @ 
try: 


_s = yield y © 
except GeneratorExit as e: QO 
try: 
_m = _i.close 
except AttributeError: 
pass 
else: 
_m() 
raise _e 
except BaseException as e: @ 
_X = sys.exc_info() 
try: 
m = _i.throw 
except AttributeError: 
raise e 
else: O 
try: 
y = _m(*_x) 
except StopIteration as _e: 
_r = _e.value 
break 


if _s is None: @ 
_y = next(_i) 
else: 
_y = _i.send(_s) 
except StopIteration as e: @ 
_r = _e.value 
break 


RESULT = r @ 








O EXPR 可 以 是 任何 可 迭代 的 对 象 ， 因 为 获取 迭代 器 _i (这 是 子 生 成 器 〉 使 用 的 是 
iter() 函数 。 


O 预 激 子 生 成 器 ;结果 保存 在 _y 中 ， 作 为 产 出 的 第 一 个 值 。 


© WAR StopIteration 异常 ， 获 取 异 常 对 象 的 value 属性 ， 赋 值 给 _r 一 这 是 最 
简单 情况 下 的 返回 值 CRESULT) 。 


O 运行 这 个 循环 时 ， 委 派生 成 器 会 阻塞 ， 只 作为 调用 方 和 子 生 成 器 之 间 的 通道 。 


O 产 出 子 生成 器 当前 产 出 的 元 素 ; 等 待 调用 方 发 送 _s 中 保存 的 值 。 这 个 代码 清单 中 只 有 
这 一 个 yield 表达 式 。 

O 这 一 部 分 用 于 关闭 委派 生成 器 和 子 生成 器 。 因 为 子 生成 器 可 以 是 任何 可 迭代 的 对 象 ， 
所 以 可 能 没有 close 方法 。 
O 这 一 部 分 处 理 调 用 方 通过 .throw(... ) 方法 传 入 的 异常 。 同 样 ， 子 生成 器 可 以 是 迭代 
上 器， 从 而 没有 throw 方法 可 调用 一 一 这 种 情况 会 导致 委派 生成 器 抛 出 异常 。 


O 如 果子 生成 器 有 throw 方法 ， 调 用 它 并 传 入 调用 方 发 来 的 异常 。 子 生成 器 可 能 会 处 理 

传 入 的 异常 〈 然 后 继续 循环 ) ; 可 能 抛 出 StopIteration 异常 〈 从 中 获取 结果 ， 赋 值 给 

; 还 可 能 不 处 理 ， 而 是 殷 出 相同 的 或 不 同 的 异常 ， 向 上 冒 泡 ， 传 给 委派 
E 


O 如 果 产 出 值 时 没有 异常 .……. 

O 尝试 计 子 生成 器 向 前 执行 .……. 

@ 如 果 调 用 方 最 后 发 送 的 值 是 None， 在 子 生成 器 上 调用 next 函数 ， 否 则 调用 send 方 
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O 如 果子 生成 器 抛 出 StopIteration 异常 ， 获 取 value BIERE, WEA _r， 然 后 退 
出 循环 ， 证 委派 生成 器 恢复 运行 。 


图 返 回 的 结果 (RESULT) 是 _r， 即 整个 yield from 表达 式 的 值 。 


这 段 yield from 伪 代 码 的 大 多 数 逻 辑 通过 六 个 try/except RKI, MARE SWE, 
因此 有 点 难以 阅读 。 此 外 ， 用 到 的 其 他 流程 控制 关键 字 有 一 个 while、 一 个 if 和 一 个 
yield。 找 到 while fA. yield 表达 式 以 及 next(...) 函数 和 .send(...) 方法 调 
用 ， 这 些 代 码 有 助 于 对 yield from 结构 的 运作 方式 有 个 整体 的 了 解 。 


就 在 示例 16-19 所 列 伪 代 码 的 顶部 ， 有 行 代 码 (标号 @) 揭示 了 一 个 重要 的 细节 : 要 预 激 
J 9 这 表明 ， 用 于 自动 预 激 的 装饰 器 (如 16.4 节 定 义 的 那个 ) 5 yield from 4 
构 不 兼容 。 

































































?Nick Coghlan 于 2009 年 4 月 5 日 在 Python-ideas 邮件 列表 中 发 布 的 一 个 消息 Chttps://mail. python. org/pipermail/python- 
ideas/2009-April/003954.html) 中 质疑 ，yield from 结构 隐 式 预 激 是 不 是 好 主意 。 











在 本 节 开 头 引用 的 那个 消息 中 (https://mail.python.org/pipermail/python-dev/2009- 
March/087385.html) ， 关 于 扩充 yield from 结构 的 伪 代 码 ，Greg Ewing 说 : 








我 不 是 让 你 通过 扩充 的 伪 代 码 学 习 这 个 结构 ， 那 段 伪 代 码 是 为 了 让 语言 专家 和 弄 明白 细 
ack 


仔细 研究 扩充 的 伪 代 码 可 能 没什么 用 一 一 这 与 你 的 学 习 方 式 有 关 。 显 然 ， 分 析 真 正 使 用 
yield from 结构 的 代码 要 比 深入 研究 实现 这 一 结构 的 伪 代 码 更 有 好 处 。 不 过 ， 我 见 过 的 
yield from 示例 几乎 都 使 用 asyncio PKI 步 编 程 ， 因 此 要 有 有 效 的 事件 循环 才能 
运行 。 第 18 章 会 多 次 用 到 yield from 结构 。 16 11 节 中 有 几 个 链接 ， 指 向 使 用 yield 
From 结构 的 一 些 有 趣 代码 ， 而 且 无 需 事件 循环 。 


下 面 分 析 一 个 使 用 协 程 的 经 典 案 例 ， 仿真 编程 。 这 个 案例 没有 展示 yield from 结构 的 用 
法 ， 但 是 揭示 了 如 何 使 用 协 程 在 单个 线程 中 管理 并 发 活动 。 






















































































16.9 ”使 用 案例 : 使 用 协 程 做 离散 事件 仿真 


协 程 能 自然 地 表述 很 多 算法 ， 例 如 仿真 、 游 戏 、 异 步 WO， 以 及 其 他 事件 驱动 型 编程 
形式 或 协作 式 多 任务 。 





— Guido van Rossum 和 Phillip J. Eby 
PEP 342—Coroutines via Enhanced Generators 


| 10pEP 342 (https://www.python.org/dev/peps/pep-0342/) 中 “Motivation* 一 节 开头 的 第 一 句 话 。 











本 节 我 会 说 明 如 何 只 使 用 协 程 和 标准 库 中 的 对 象 实现 一 个 特别 简单 的 仿真 系统 。 在 计算 机 
科学 领域 ， 仿 真是 协 程 的 经 典 应 用 。 第 一 门面 向 对 象 的 语言 Simula 引入 了 协 程 这 个 概 
念 ， 目 的 就 是 为 了 支持 仿真 。 





` 下 述 仿真 示例 不 是 为 了 做 学 术 研究 。 协 程 是 asyncio 包 的 基础 构建 。 通 过 仿 
真 系统 能 说 明 如 何 使 用 协 程 代 蔡 线 程 实现 并 发 的 活动 ， 而 且 对 理解 第 18 章 讨 论 的 
asyncio 包 有 极 大 的 帮助 。 


分 析 示 例 之 前 ， 先 简单 介绍 一 下 仿真 。 


16.9.1 离散 事件 仿真 简介 


离散 事件 仿真 (Discrete Event Simulation, DES) 是 一 种 把 系统 建 模 成 一 系列 事件 的 仿真 

类 型 。 在 离散 事件 仿真 中 ,仿真 “ 钟 " 疝 前 推进 的 量 不 是 固定 的 ， 而 是 直接 推进 到 下 一 个 事 
件 模型 的 模拟 时 间 。 假 如 我 们 抽象 模拟 出 租车 的 运营 过 程 ， 其 中 一 个 事件 是 乘客 上 车 ， 下 
一 个 事件 则 是 乘客 下 车 。 不 管 乘客 坐 了 5 分 钟 还 是 50 分 钟 ， 一 旦 乘客 下 车 ， 仿 真 钟 就 会 
更 新 ， 指 向 此 次 运营 的 结束 时 间 。 使 用 离散 事件 仿真 可 以 在 不 到 一 秒 钟 的 时 间 内 模拟 一 年 
A 这 与 连续 仿真 不 同 ， 连 续 仿 真 的 仿真 钟 以 固定 的 量 〈 通 党 很 小 ) 不 断 
A) A o 


显然 ， 回 合 制 游 戏 就 是 离散 事件 仿真 的 例子 : 游戏 的 状态 只 在 玩家 操作 时 变化 ， 而 且 一 旦 
玩家 决定 下 一 步 怎么 走 了 ， 仿 真 钟 就 会 冻结 。 而 实时 游戏 则 是 连续 仿真 ， 仿 真 钟 一 直 在 运 
行 ， 游 戏 的 状态 在 一 秒 钟 之 内 更 新 很 多 次 ， 因 此 反应 慢 的 玩家 特别 吃亏 。 


这 两 种 仿真 类 型 都 能 使 用 多 线程 或 在 单个 线程 中 使 用 面向 事件 的 编程 技术 (例如 事件 循环 
驱动 的 回调 或 协 程 ) 实现 。 可 以 说 ， 为 了 实现 连续 仿真 ， 在 多 个 线程 中 处 理 实 时 并 行 的 操 
作 更 自然 。 而 协 程 恰好 为 实现 离散 事件 仿真 提供 了 合理 的 抽象 。SimPyll 是 一 个 实现 离散 
事件 仿真 的 Python 包 ， 通 过 一 个 协 程 表示 离散 事件 仿真 系统 中 的 各 个 进程 。 





































































































1 参见 SimPy 的 官方 文档 Chttps//simpy.readthedocs.org/en/latest/) 。 不 要 和 著名 的 SymPy Chttp//www.sympy.org) 混淆 
了 。SymPy 是 一 个 符号 数学 库 ， 与 DES 无 关 。 








A 在 仿真 领域 ， 进 程 这 个 术语 指 代 模 型 中 茶 个 实体 的 活动 ， 与 操作 系统 中 的 进程 
无 关 。 仿 真 系统 中 的 一 个 进程 可 以 使 用 操作 系统 中 的 一 个 进程 实现 ， 但 是 通常 会 使 用 
一 个 线程 或 一 个 协 程 实现 。 


如 果 对 仿真 感 兴趣 ， 值 得 研究 一 下 SimPy。 不 过 ， 在 这 一 节 我 会 说 明 如 何 只 使 用 标准 库 提 
供 的 功能 实现 一 个 特别 简单 的 离散 事件 仿真 系统 。 我 的 目的 是 增进 你 对 使 用 协 程 管理 并 发 
操作 的 感性 认 知 。 和 若 想 理解 下 一 节 所 讲 的 内 容 ， 要 仔细 研究 ， 不 过 这 一 付出 能 得 到 很 大 回 
报 ， 让 我 们 洞悉 asyncio、Twisted 和 Tornado 等 库 是 如 何在 单个 线程 中 管理 多 个 并 发 活 

动 的 。 


16.92 出租 车队 运 营 仿 真 


仿真 程序 taxi_simpy 会 创建 几 辆 出 租车 ， 每 辆 车 会 拉 几 个 乘客 ， 然 后 回 家 。 出 租车 首先 
驶 离 车 库 ， 四 处 徘徊 ， 寻 找 乘客 ， 拉 到 乘客 后 ， 行 程 开 始 ; 乘客 下 车 后 ， 继 续 四 处 徘徊 。 


四 处 徘徊 和 行程 所 用 的 时 间 使 用 指数 分 布 生 成 。 为 了 让 显示 的 信息 更 加 整洁， 时 间 使 用 取 
整 的 分 钟 数 ， 不 过 这 个 仿真 程序 也 能 使 用 浮 点 数 表示 耗 时 。 每 辆 出 租车 每 次 的 状态 变 
化 都 是 一 个 事件 。 图 16-3 是 运行 这 个 程序 的 输出 示例 。 



















































































?我 不 是 运营 出 租车 队 的 行家 ， 因 此 别 太 在 意 显 示 的 时 间 。 离 散 事 件 仿真 经 常 使 用 指数 分 布 。 你 会 看 到 一 些 非常 短 的 
行程 ， 你 就 假设 那 是 一 个 十 天， 一 些 乘客 坐 出 租车 只 走 了 一 个 街区 。 在 理想 的 城市 中 ， 即 使 下 雨 也 有 出 租车 。 






























































$ python3 taxi_sim.py -s 3 


taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 


0 
0 
1 
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Event(time=0, proc=0, action='leave garage’) 


Event(time=2, proc=0, action='pick up passenger') 
Event(time=5, proc=1, action='leave garage’) 
Event(time=8, proc=1, action='pick up passenger’ ) 

Event(time=10, proc=2, action='leave garage’) 
Event(time=15, proc=2, action='pick up passenger' ) > 
Event(time=17, proc=2, action='drop off passenger ') 

P 


Event(time=18, proc=0, action='drop off passenger') 
Event(time=18, proc=2, action='pick up passenger') 
Event(time=25, proc=2, action='drop off passenger') 

Event(time=27, proc=1, action='drop off passenger') 


Event(time=27, proc=2, action='pick up passenger') 
Event(time=28, proc=0, action='pick up passenger') 
Event(time=40, proc=2, action='drop off passenger') 
Event(time=44, proc=2, action='pick up passenger') 
Event(time=55, proc=1, action='pick up passenger' ) 3 
Event(time=59, proc=1, action='drop off passenger ') 
Event(time=65, proc=0, action='drop off passenger') 
Event(time=65, proc=1, action='pick up passenger' ) 
Event(time=65, proc=2, action='drop off passenger') 
Event(time=72, proc=2, action='pick up passenger' ) 
Event(time=76, proc=0, action='going home') 
P 
一 一 一 > 


Event(time=80, proc=1, action='drop off passenger') 
Event(time=88, proc=1, action='pick up passenger' ) 
Event(time=95, proc=2, action='drop off passenger') 
Event(time=97, proc=2, action='pick up passenger' ) 
Event(time=98, proc=2, action='drop off passenger') 
Event(time=106, proc=1, action='drop off passenger’ ) 
Event(time=109, proc=2, action='going home') 
Event(time=110, proc=1, action='going home ' ) 一 -一 二 


*** end of events *** 
16-3: 运行 taxi_simpy 创建 3 辆 出 租车 的 输出 示例 。-s 3 参数 设置 随机 数 生 成 器 


的 种 子 ， 这 样 在 调试 和 演示 时 可 以 重复 运行 程序 ， 输 出 相同 的 结果 。 不 同 颜色 的 箭头 
表示 不 同 出 租车 的 行程 3 





| 图 16-3 的 彩色 图 片 可 从 本 书页 面 http//wwwituring.com.cn/book/1564》 的 “ 随 书 下 载 ”部 分 获取 。 一 一 编者 注 





























16-3 中 最 值得 注意 的 一 件 事 是 ，3 辆 出 租车 的 行程 是 交叉 进行 的 。 那 些 箭 头 是 我 加 上 
的 ， 为 的 是 让 你 看 清 各 辆 出 租车 的 行程 ;箭头 从 乘客 上 车 时 开始 ， 到 乘客 下 车 后 结束 。 有 


了 箭头 





直观 地 看 出 如 何 使 用 协 程 管理 并 发 的 活动 。 


» He 


16-3 中 还 有 几 件 事 值 得 注意 。 





。 出 租车 每 隔 5 分 钟 从 车 库 中 出 发 。 


© 0 号 出 租车 2 分 钟 后 拉 到 乘客 (time=2) , 1 号 出 租车 3 分 钟 后 拉 到 乘客 
(time=8) ，2 号 出 租车 5 分 钟 后 拉 到 乘客 (time=15) 。 


。0 号 出 租车 拉 了 两 个 乘客 (ASL) : 第 一 个 乘客 从 time=2 时 上 车 ， 到 time=18 
时 下 车 ;第 二 个 乘客 从 time=28 时 上 车 ， 到 time=65 时 下 车 一 一 这 是 此 次 仿真 中 最 
长 的 行程 。 

0 1 号 出 租车 拉 了 四 个 乘客 〈 绿 色 箭 头 ) ， 在 time=116 时 回 家 。 


。2 号 出 租车 拉 了 六 个 乘客 (AEL) ， 在 time=169 时 回 家 。 这 辆 车 最 后 一 次 行程 
从 time=97 时 开始 ， 只 持续 了 一 分 钟 。14 


。1 号 出 租车 的 第 一 次 行程 从 time=8 时 开始 ， 在 这 个 过 程 中 2 号 出 租车 离开 了 和 车库 
(time=10) ， 而 且 完成 了 两 次 行程 〈 那 两 个 短 的 红色 箭头 ) o 


。 在 此 次 运行 示例 中 ， 所 有 排 定 的 事件 都 在 默认 的 仿真 时 间 内 (180 分 钟 ) 完成 ， 最 后 
一 次 事件 发 生 在 time=110 时 。 


“乘客 是 我 ， 我 发 现 忘 了 带 钱 包 。 






























































仿真 结束 时 可 能 还 有 未 完成 的 事件 。 如 果 是 这 种 情况 ， 最 后 一 条 消息 会 是 下 面 这 样 : 





*** end of simulation time: 3 events pending *** 














taxi sim.py 脚本 的 完整 代码 在 示例 A-6 中 ， 本 章 只 会 列 出 与 协 程 相关 的 部 分 。 真 正 重要 的 
函数 只 有 两 个 : taxi_process 〈 一 个 协 程 ) ， 以 及 执行 仿真 主 循环 的 Simulator .run 
方法 。 








示例 16-20 是 taxi_process 函数 的 代码 。 这 个 协 程 用 到 了 别处 定义 的 两 个 对 
RR: compute_delay 函数 ， 返 回 单位 为 分 钟 的 时 间 间 隔 ，Event 类 ， 一 个 
namedtuple， 定 义 方式 如 下 : 


Event = collections.namedtuple('Event', ‘time proc action') 


在 Event 实例 中 ，time 字段 是 事件 发 生 时 的 仿真 时 间 ，proc 字段 是 出 租车 进程 实例 的 
编号 ，action 字段 是 描述 活动 的 字符 串 。 


面 逐 行 分 析 示 例 16-20 中 的 taxi_process 函数 。 



































示例 16-20 taxi simpy: taxi_process 协 程 ， 实 现 各 辆 出 租车 的 活动 





""" 每 次 改变 状态 时 创建 事件 ， 把 控制 权 让 给 仿真 器 "" 
time = yield Event(start_time, ident, 'leave garage') @ 

















def taxi _process(ident, trips, start_time=@): 0 





for i in range(trips): © 
time = yield Event(time, ident, 'pick up passenger') @ 
time = yield Event(time, ident, 'drop off passenger') © 
yield Event(time, ident, ‘going home') © 

# 出 租车 进程 结束 ”名 





























O 每 辆 出 租车 调用 一 次 taxi_process 函数 ， 创 建 一 个 生成 器 对 象 ， 表 示 各 辆 出 租车 的 
运营 过 程 。ident 是 出 租车 的 编号 〈 如 上 述 运 行 示例 中 的 0、1、2) ; trips 是 出 租车 回 
家 之 前 的 行程 数量 ，start_time 是 出 租车 离开 车 库 的 时 间 。 


引产 出 的 第 一 个 Event 是 'leave garage'。 执 行 到 这 一 行 时 ， 协 程 会 暂停 ， 让 仿真 主 
TERA FORE 下 一 个 事件 。 需 要 重新 激活 这 个 进程 时 ， 主 循环 会 发 送 〈 使 用 send 
FE) 当前 的 仿真 时 间 ， 赋 值 给 time. 

全 每 次 行程 都 会 执行 一 遍 这 个 代码 块 。 

@ 产 出 一 个 Event 实例 ， 表 示 拉 到 乘客 了 。 协 程 在 这 里 暂停 。 需 要 重新 激活 这 个 协 程 
时 ， 主 循环 会 发 送 〈 使 用 send 方法 ) 当前 的 时 间 。 


@ 产 出 一 个 Event 实例 ， 表 示 乘 客 下 车 了 。 协 程 在 这 里 暂停 ， 等 待 主 循环 发 送 时 间 ， 然 
后 重新 激活 。 


O 指定 的 行程 数量 完成 后 ，for 循环 结束 ， 最 后 产 出 "going home’ 事件 。 此 时 ， 协 程 
最 后 一 次 暂停 。 仿 真主 循环 发 送 时 间 后 ， 协 程 重新 激活 ， 不过， 这 里 没有 把 产 出 的 值 赋值 
给 变量 ， 因 为 用 不 到 了 。 

O 协 程 执行 到 最 后 时 ， 生 成 器 对 象 抛 出 StopIteration 异常 。 


您 可 以 在 Æ Python 控制 台中 调用 taxi_process 函数 ， 自 己 “ 驾 驶 ”(drive) 一 辆 出 租车 
， 如 示例 16-21 所 示 。 












































































































































述 协 程 的 操作 时 经 常 使 用 “drive”* 这 个 动词 ， 例 如 : 客户 代码 把 值 发 给 协 程 ， 驱 动 协 程 。 在 示例 16-21 中 ， 客 户 代 码 
你 在 控制 合 中 输入 的 代码。 (drive 一 词 有 不 同 的 含义 ， 因 此 在 不 同 的 语 境 中 有 不 同 的 译 法 ， 例 如 这 个 脚注 所 在 的 那 
话 中 译 为 “驾驶 "。 一 一 译 者 注 ) 
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示例 16-21 驱动 taxi_process 协 程 





>>> from taxi_sim import taxi_process 

>>> taxi = taxi_process(ident=13, trips=2, start time=0) © 
>>> next(taxi) @ 

Event(time=@, proc=13, action='leave garage’) 

>>> taxi.send(_.time + 7) © 

Event(time=7, proc=13, action='pick up passenger') @ 
>>> taxi.send(_.time + 23) © 

Event (time=30, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 5) O 

Event(time=35, proc=13, action='pick up passenger’ ) 
>>> taxi.send(_.time + 48) @ 

Event(time=83, proc=13, action='drop off passenger’ ) 





>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home') © 
>>> taxi.send(_.time + 10) © 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
StopIteration 








@ 创建 一 个 生成 器 对 象 ， 表 示 一 辆 出 租车 。 这 辆 出 租车 的 编号 是 13 Cident=13) , M 
t=O 时 开始 工作 ， 有 两 次 行程 。 


O 预 激 协 程 ， 产 出 第 一 个 事件 。 


O 现在 可 以 发 送 当前 时 间 。 在 控制 台中 ，_ 变量 绑 定 的 是 前 一 个 结果 ; 这 里 我 在 时 间 上 
加 7， 意 思 是 这 辆 出 租车 7 分 钟 后 找到 第 一 个 乘客 。 


O 这 个 事件 由 for 循环 在 第 一 个 行程 的 开头 产 出 。 

O 发 送 _.time + 23， 表 示 第 一 个 乘客 的 行程 持续 了 23 分 钟 。 
@ 然后 ， 这 辆 出 租车 会 徘徊 5 分钟 。 

@ 最 后 一 次 行程 持续 48 分 钟 。 

O 两 次 行程 完成 后 ，for 循环 结束 ， 产 出 'going home' 事件 。 


O 如 末 尝 试 再 把 值 发 给 协 程 ， 会 执行 到 协 程 的 末尾 。 协 程 返 回 后 ， 解 释 器 会 抛 出 
StopIteration 异常 。 


注意 ， 在 示例 16-21 中 ， 我 使 用 控制 台 模 拟 仿 真主 循环 。 我 从 taxi 协 程 产 出 的 Event 实 
例 中 获取 .time 属性 ， 随 意 与 一 个 数 相 加 ， 然 后 调用 taxi.send 方法 发 送 两 数 之 和 ， 重 
新 激活 协 程 。 在 这 个 仿真 系统 中 ， 各 个 出 租车 协 程 由 Simulator.run 方法 中 的 主 循 环 驱 
动 。 仿 真 “ 钟 ”保存 在 sim_time 变量 中 ， 每 次 产 出 事件 时 都 会 更 新 仿真 钟 。 


为 了 实例 化 Simulator 类 ，taxi_sim.py 脚本 的 main 函数 构建 了 一 个 taxis 字典 ， 如 下 
ARAN: 
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taxis = {i: taxi_process(i, (i + 1) * 2, i * DEPARTURE_INTERVAL) 
for i in range(num_taxis)} 
sim = Simulator(taxis) 











DEPARTURE_INTERVAL 的 值 是 5; 如 果 num taxis 的 值 与 前 面 的 运行 示例 一 样 也 是 3， 
这 三 行 代码 的 作用 与 下 述 代码 一 样 ; 





H 
oe 





taxis = {@: taxi_process(ident=0, trips=2, start_time=0), 
1: taxi_process(ident=1, trips=4, start_time=5), 
2: taxi_process(ident=2, trips=6, start_time=10)} 
sim = Simulator(taxis) 








lth, taxis 字典 的 值 是 三 个 参数 不 同 的 生成 器 对 象 。 例 如 ，1 号 出 租车 从 
start_time=5 时 开始 ， 寻 找 四 个 乘客 。 构 建 Simulator 实例 只 需 这 个 字典 参数 。 




















Simulator. init _ 方法 如 示例 16-22 所 示 。Simulator 类 的 主要 数据 结构 如 下 。 
self.events 


PriorityQueue 对 象 ， 保 存 Event 实例 。 元 素 可 以 放 进 (使 用 put 方 
法 ) PriorityQueue 对 象 中 ， 然 后 按 item[6] (Hl Event MRM time 属性 ) 依 序 取出 
(使 用 get 方法 ) 。 














self.procs 


一 个 字典 ， 把 出 租车 的 编号 映射 到 仿真 过 程 中 激活 的 进程 (表示 出 租车 的 生成 器 对 
象 )。 这 个 属性 会 绑 定 前 面 所 示 的 taxis 字典 副本 。 


示例 16-22 taxi simpy: Simulator 类 的 初始 化 方法 
































class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() @ 
self.procs = dict(procs map) @ 








O 保存 排 定 事件 的 PriorityQueue 对 象 ， 按 时 间 正 向 排序 。 


© 获取 的 procs_map 参数 是 一 个 字典 或 其 他 映射 》， 可 是 又 从 中 构建 一 个 字典 ， 创 奸 
本 地 副本 ， 因 为 在 仿真 过 程 中 ， 出 租车 回 家 后 会 从 self.procs 属性 中 移 除 ， 而 我 们 不 想 
修改 用 户 传 入 的 对 象 。 


优先 队列 是 离散 事件 仿真 系统 的 基础 构件 : 创建 事件 的 顺序 不 定 ， 放 入 这 种 队列 之 后 ， 可 
以 按照 各 个 事件 排 定 的 时 间 顺 序 取出 。 例 如 ， 可 能 会 把 下 面 两 个 事件 放 入 优先 队列 : 
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Event(time=14, proc=@, action='pick up passenger’ ) 
Event(time=11, proc=1, action='pick up passenger’ ) 











这 两 个 事件 的 意思 是 ，0 号 出 租车 14 分 钟 后 拉 到 第 一 个 乘客 ， 而 1 号 出 租车 (time=10 
时 出 发 ) 1 分 钟 后 (time=11〉 拉 到 乘客 。 如 果 这 两 个 事件 在 队列 中 ， 主 循环 从 优先 队列 
中 获取 的 第 一 个 事件 将 是 Event(time=11,，proc=1, action='pick up 

passenger' )。 


下 面 分 析 这 个 仿真 系统 的 主 算法 一 simulator.run 方法 。 在 main 函数 中 ， 实 例 化 
Simulator 类 之 后 立即 就 调用 了 这 个 方法 ， 如 下 所 示 : 


sim = Simulator(taxis) 
sim.run(end time) 























Simulator 类 带 有 注解 的 代码 清单 在 示例 16-23 中 ， 下 面 先 概 述 Simulator.run 方法 实 
现 的 算法 。 


(1) 碗 代表 示 各 辆 出 租车 的 进程 。 


i a. 在 各 辆 出 租车 上 调用 next () 函数 ， 预 激 协 程 。 这 样 会 产 出 各 辆 出 租车 的 第 一 个 寻 


b. 把 各 个 事件 放 入 Simulator 类 的 self.events 属性 (队列 ) 中 。 
(2) 满足 sim_time < end_time 条 件 时 ， 运 行 仿真 系统 的 主 循环 。 
a. 检查 self.events 属性 是 否 为 室 ， 如 果 为 空 ， 跳 出 循环 。 


b. 从 self.events 中 获取 当前 事件 (current_event) ， 即 PriorityQueue 对 象 
中 时 间 值 最 小 的 Event 对 象 。 


c. 显示 获取 的 Event 对 象 。 
d. 获 取 current_event 的 time 属性 ， 更 新 仿真 时 间 。 
e. 把 时 间 发 给 current_event 的 proc 属性 标识 的 协 程 ， 产 出 下 一 个 事件 


(next event) 。 











出 | 









































f 把 next_event 添加 到 self.events 队列 中 ， 排 定 next_event. 





Simulator 类 完整 的 代码 如 示例 16-23 所 示 。 








示例 16-23 taxi simpy: Simulator， 一 个 简单 的 离散 事件 仿真 类 ; 关注 的 重点 是 
run 方法 











class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() 
self.procs = dict(procs_map) 


def run(self, end time): 1) 
'" 排 定 并 显示 事件 ， 到 时 间 结 束 """ 
# 排 定 各 4 H 出 租车 的 第 一 个 事件 
for _, proc in sorted(self.procs.items()): @ 
first_event = next(proc) 
self.events.put(first_event) @ 




































































# 这 个 仿真 系统 的 主 循环 
sim_time = 6 
while sim time < end time: © 
if self.events.empty(): @ 
print('*** end of events ***') 
break 





current_event = self.events.get() © 





sim_time, proc_id, previous_action = current_event © 
print('taxi:', proc_id, proc_id * ' ', current_event) 四 
active_proc = self.procs[proc_id] @ 
next_time = sim_time + compute_duration(previous_action) @ 
try: 

next_event = active_proc.send(next_time) © 
except StopIteration: 

del self.procs[proc_id] @ 
else: 

self.events.put(next_event) © 

else: © 

msg = '*** end of simulation time: {} events pending ***' 
print(msg. format (self.events.qsize())) 


























Q run 方法 只 需要 仿真 结束 时 间 (end_time) 这 一 个 参数 。 
四 使 用 sorted 函数 获取 self.procs 中 按键 排序 的 元 素 ， 用 不 到 键 ， 因 此 赋值 给 _。 


© 调用 next(proc) 预 激 各 个 协 程 ， 向 前 执行 到 第 一 个 yield 表达 式 ， 做 好 接收 数据 的 
准备 。 产 出 一 个 Event 对 象 。 


O 把 各 个 事件 添加 到 self.events 属性 表示 的 PriorityQueue 对 象 中 。 如 示例 16-20 
中 的 运行 示例 ， 各 辆 出 租车 的 第 一 个 事件 是 "leave garage'. 


加 把 sim_time Be (HAH) VAS. 

@ 这 个 仿真 系统 的 主 循环 : sim_time 小 于 end_time 时 运行 。 

O 如 果 队 列 中 没有 未 完成 的 事件 ， 退 出 主 循环 。 

O 获取 优先 队列 中 time 属性 最 小 的 Event 对 象 ， 这 是 当前 事件 Ccurrent_event) 。 


qi Event 对 象 中 的 数据 。 这 一 行 代码 会 更 新 仿真 钟 sim_time， 对 应 于 事件 发 生 时 
时间。 


16 这 通常 是 离散 事件 仿真 ， 每 次 循环 时 仿真 钟 不 会 以 固定 的 量 推进 ， 而 是 根据 各 个 事件 持续 的 时 间 推进 。 
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O 显示 Event 对 象 ， 指 明 是 哪 辆 出 租车 ， 并 根据 出 租车 的 编号 缩 进 。 

O M self .procs 字典 中 获取 表示 当前 活动 的 出 租车 的 协 程 。 

® H compute_duration(...) 函数 ， 传 入 前 一 个 动作 《〈 例 如 ， ‘pick up 
passenger'、'drop off passenger' 等 ) ， 把 结果 加 到 sim_time 上 ， 计 算出 下 一 次 
活动 的 时 间 。 


O 把 计算 得 到 的 时 间 发 给 出 租车 协 程 。 协 程 会 产 出 下 一 个 事件 (next_event) ， 或 者 抛 
出 StopIteration 异常 (完成 时 ) à- 


© 如 果 抛 出 了 StopIteration 异常 ， 从 self.procs 字典 中 删除 那个 协 程 。 























@ 否则 ， 把 next_event 放 入 队列 中 。 
O 如 果 循 环 由 于 仿真 时 间 到 了 而 退出 ， 显 示 待 完成 的 事件 数量 〈 有 时 可 能 碰巧 是 零 ) 。 


注意 ， 示 例 16-23 中 的 Simulator.run 方法 有 两 处 用 到 了 第 15 章 介 绍 的 else 块 ， 而 且 
都 不 在 if 语句 中 。 


。 主 while 循环 有 一 个 else 语句 ， 报 告 仿真 系统 由 于 到 达 结 束 时 间 而 结束 ， 而 不 是 由 
于 没有 事件 要 处 理 而 结束 。 


。 靠近 主 while 循环 底部 那个 try 语句 把 next_time 发 给 当前 的 出 租车 进程 ， 尝 试 获 
取 下 一 个 事件 (next_event) ， 如 果 成 功 ， 执 行 else 块 ， 把 next_event WA 
self.events 队列 中 。 





































































































我 觉得 ， 如 果 没 有 这 两 个 else 块 ，Simulator.run 方法 的 代码 会 有 点 难以 阅读 。 


这 个 示例 的 要 由 是 说 明 如 何在 一 个 主 循环 中 处 理事 件 ， 以 及 如 何 通 过 发 送 数 据 驱 动 协 程 。 
这 是 asyncio 包 底 层 的 基本 思想 ， 我 们 在 第 18 章 会 学 习 这 个 包 。 



































16.10 本章 小 结 
Guido van Rossum 写 道 ， 生 成 器 有 三 种 不 同 的 代码 编写 风格 : 


AERA FL GER) 、“ 推 送 式 ” 0 ， 还 有 “任务 
式 ”( 读 过 Dave Beazley 写 的 协 TEATE J B... 

















1 摘自 对 Python-ideas 邮件 列表 中 “Yield-From: Finalization guarantees” 消 息 的 回复 Chttps://mail.python.org/pipermail/python- 
ideas/2009-Apriy003884.html) . Guido 所 说 的 David Beazley 写 的 教程 是 “A Curious Course on Coroutines and 
Concurrency” (http://www.dabeaz.com/coroutines/) 。 











第 14 章 专门 介绍 了 和 友 代 器 ， 本 章 则 介绍 了 “推送 式 ” 协 程 ， 还 介绍 了 特别 简单 的 “任务 
sexist et 进程 。 第 18 章 会 在 并 发 编程 中 使 用 这 两 种 技术 实现 异 步 任 


计算 移动 平均 值 的 示例 展示 了 协 程 的 常见 用 途 : 累加 器 ， 处 理 接收 到 的 值 。 我 们 知道 ， 可 
以 在 协 程 上 应 用 装饰 器 ， 预 激 协 程 ， 在 某 些 情况 下 ， 这 么 做 更 方便 。 -o 预 激 装 
饰 器 与 协 程 的 某 些 用 法 不 兼容 。 尤 其 是 yield from subgenerator(), 结构 假定 
subgenerator 没有 预 激 ， 然 后 自动 预 激 。 


每 次 调用 send 方法 时 ， 作 为 累加 器 使 用 的 协 程 可 以 获取 部 分 结果 ， 不 过 能 返回 值 的 协 程 
更 有 用 。 这 个 特性 在 PEP 380 中 定义 ， 于 Python 3.3 引入 。 我 们 知道 ， 现 在 生成 器 中 的 
return the_result 语句 会 抛 出 StopIteration(the_result) 异常 ， 这 样 调用 方 可 以 
从 异常 的 value 属性 中 获取 the_result。 这 样 获取 协 程 的 结果 还 是 很 麻烦 ， 不 过 PEP 
380 引入 的 yield from 句法 能 自动 处 理 。 


探讨 yield from 结构 时 ， 我 们 首先 从 使 用 简单 的 迭代 器 的 示例 入 手 ， 然 后 又 举 了 一 个 例 
子 ， 重 点 说 明 yield from 结构 的 三 个 主要 组 件 ， 委 派生 成 器 (在 定义 体 中 使 用 yield 
from) , yield from 激活 的 子 生成 器 ， 以 及 通过 委派 生成 器 中 yield from 表达 式 架 设 
起 来 的 通道 把 值 发 给 子 生 成 器 ， 从 而 驱动 整个 过 程 的 客户 代码 。 最 后 ， 那 一 节 参 照 PEP 
380 中 使 用 的 英语 和 类 似 Python 的 伪 代 码 分 析 了 yield from 结构 的 正式 定义 。 


本 章 最 后 举 了 一 个 离散 事件 仿真 示例 ， 说 明 如 何 使 用 生成 器 代替 线程 和 回调 ， 实 现 并 发 。 
那个 出 租车 仿真 系统 虽然 简单 ， 但 是 首次 一 顷 了 事件 驱动 型 框架 (如 Tornado 和 
asyncio) 的 运作 方式 : 在 单个 线程 中 使 用 一 个 主 循环 驱动 协 程 执行 并 发 活动 。 使 用 协 程 
做 面 同事 件 编程 时 ， 协 程 会 不 断 把 控制 权 让 步 给 主 循环 ， 激 活 并 同 前 运行 其 他 协 程 ， 从 而 
执行 各 个 并 发 活动 。 这 是 一 种 协作 式 多 任务 : 协 程 显 式 自主 地 把 控制 权 让 步 给 中 央 调 度 程 
序 。 而 多 线程 实现 的 是 抢占 式 多 任务 。 调 度 程序 可 以 在 任何 时 刻 和 暂停 线程 〈 即 使 在 执行 一 
个 语句 的 过 程 中 ) ， 把 控制 权 让 给 其 他 线程 。 


最 后 要 说 明 一 点 ， 本 章 对 协 程 的 定义 是 宽泛 的 、 不 正式 的 ， 即 : 通过 客户 调用 
.send(...) 方法 发 送 数据 或 使 用 yield from 结构 驱动 的 生成 器 函数 。 写 作 本 书 

Ik}, “PEP 342— Coroutines via Enhanced Generators” (https://www.python.org/dev/peps/pep- 
0342/) 和 现 有 的 大 多 数 Python 书籍 都 使 用 这 个 宽泛 的 定义 。 第 18 章 介绍 的 asyncio Æ 
建构 在 协 程 之 上 ， 不 过 采用 的 协 程 定义 更 为 严格 : 在 asyncio 库 中 ， 协 程 〈 通 常 ) 使 用 

















































































































@asyncio.coroutine 装饰 器 装饰 ， 而 且 始 终 使 用 yield from 结构 驱动 ， 而 不 通过 直 
接 在 协 程 上 调用 .send(. . . ) 方法 驱动 。 当 然 ， 在 asyncio 库 的 底层 ， 协 程 使 用 


next(...) 函数 和 .send(...) 方法 驱动 ， 不 过 在 用 户 代码 中 只 使 用 yield from 结构 
驱动 协 程 运行 。 














16.11 ”延伸 阅读 


David Beazley 是 Python 生成 器 和 协 程 的 终极 权威 。 他 与 Brian Jones 合 著 的 《Python 
Cookbook (38 3 fig) 中 文 版 》 一 书 中 有 很 多 使 用 协 程 编 写 的 诀 窗 。Beazley 在 PyCon 期 间 
开设 的 课程 兼 有 深度 和 广度 ， 因 此 享有 盛名 。 首 先是 PyCon US 2008 期 间 的 “Generator 
Tricks for Systems Programmers” RJE (http://www.dabeaz.com/generators/) ， 在 PyCon US 
2009 期 间 又 开设 了 声名 远 播 的 *“A Curious Course on Coroutines and Concurrency” RFE 
(http://www.dabeaz.com/coroutines/， 三 个 部 分 的 全 部 视频 链接 很 难 找到 : 第 一 部 
分 ，http://pyvideo.org/video/213; 第 二 部 分 ，http://pyvideo.org/video/215; 第 三 部 
4}, http://pyvideo.org/video/214) 。 他 最 新 的 课程 在 蒙特 利 尔 PyCon 2014 WEI i, 
为 “Generators: The Final Frontier” Chttp://www. dabeaz.com/finalgenerator/) 。 在 这 个 课程 
中 ， 他 举 了 更 多 并 发 的 例子 ， 因 此 与 本 书 第 18 章 的 话题 联系 更 大 。 他 根本 不 担心 学 员 的 
大 脑 会 爆炸 ， 因 此 在 “The Final Frontier” 课 程 的 最 后 一 部 分 用 协 程 代替 了 经 典 的 访问 者 模 
式 ， 用 于 计算 算术 表达 式 。 


使 用 协 程 能 以 多 种 新 方式 组 织 代 码 ， 不 过 与 递归 和 多 态 〈 动 态 调度 ) 一 样 ， 要 花 点 时 间 才 

能 习惯 。James Powell 写 了 一 篇 文章 ， 题 为 “Greedy algorithm with 

coroutines” (http://seriously.dontusethiscode.com/2013/05/01/greedy-coroutine.html)。 他 在 这 

篇 文章 中 使 用 协 程 重 写 了 经 典 的 算法 。 你 可 能 还 想 浏 览 ActiveState Code 诀 罕 数据 库 
(https://code.activestate.com/recipes/) Pa FE YLT RIS 
Chttps://code.activestate.com/recipes/tags/coroutine/) 。 





























Paul Sokolovsky 为 Damien George 开发 的 超级 精简 的 MicroPython Chttp://micropython.org/, 
针对 微 控 制 器 ) 解释 器 实现 了 yield from 结构 。 在 研究 这 个 特性 的 过 程 中 ， 他 制作 了 非 
常 详细 的 示意 图 Chttps://dl.dropboxusercontent. com'w44884329/yield- frompdf) ， 解 说 
yield from 结构 的 工作 原理 ， 并 在 python-tulip 邮件 列表 中 分 享 。Sokolovsky 很 友好 ， 人 允 
许 我 把 那个 PDF 文件 复制 到 本 书 的 网 站 中 ， 那 个 文件 的 固定 链接 是 
http://flupy.org/resources/yield-from.pdf. 


写作 本 书 时 ， 只 有 asyncio 库 本 身 和 使 用 这 个 库 的 代码 大 量 使 用 yield frome RET 

很 多 时 间 ， 想 找到 不 依赖 asyncio 库 的 yield from 示例 。Greg Ewing (PEP 380 的 作 

者 ， 为 CPython 实现 了 yield from) 发 表 了 一 些 yield from 的 使 用 示例 
Chttp://www.cosc.canterbury.ac.nz/greg.ewing/python/yield- 

fron/yield_fromhtml) : BinaryTree 类 、 一 个 简单 的 XML 解析 器 和 一 个 任务 调度 程序 。 












































Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 效 方法 》 一 书 中 的 

第 40 条 短小 精辟， 题 为 “考虑 用 协 程 来 并 发 地 运行 多 个 函数 ”( 网 上 有 免费 的 英文 版 样 

=, http://www. effectivepython. com/2015/03/10/consider-coroutines-to-run-many-functions- 

concurrently/) 。 这 一 节 中 使 用 yield from 驱动 生成 器 的 示例 是 我 见 过 最 棒 的 : 那个 示 

例 实 现 了 John Conway 发 明 的 “生命 游 

X£” Chttps://en.wikipedia.org/wiki/Conway%27s Game of Life) ， 使 用 协 程 管理 游戏 运行 过 

程 中 各 个 细胞 的 状态 。 该 书 的 随 书 代码 在 一 个 GitHub 仓库 中 
(https://github.com/bslatkin/effectivepython) 。 我 重 构 了 那个 “生命 游戏 "示例 一 把 Slatkin 

书 中 的 函数 和 类 与 测试 代码 分 开 〈 原 来 的 代 

码 : https://github.com/bslatkin/effectivepython/blob/master/example code/item 40.py) > RÆ 























编写 了 doctest WIHT A, LEAN 317 BIAS RE BS Th EUR A ao HR 
示例 发 布 在 GitHub Gist 网 站 上 Chttps://gist.github.com/ramalho/da5590bc38c973408839) 。 





还 有 几 个 有 趣 的 示例 没 用 asyncio Fe, WHJ yield from: Peter Otten 在 Python Tutor 

邮件 列表 中 发 布 的 消息 ，“Comparing two CSV files using 

Python” (https://mail.python.org/pipermail/tutor/2015-February/104200.html ) ; Ian Ward 以 

iPython Notebook 形式 发 布 的 “Iterables, Iterators, and Generators” 教 程 
(http://nbviewer.ipython.org/github/wardi/iterables-iterators- 

generators/blob/master/Iterables,%20Iterators,%20Generators.ipynb) ， 实 现 的 是 剪刀 石头 布 

游戏 。 


Guido van Rossum 在 python-tulip Google Group 中 发 表 了 一 篇 内 容 很 长 的 消息 ， 题 为 “The 
difference between yield and yield-from” Chttps://groups.google.com/forum/#!msg/python- 
tulip/bmphRrryuFk/aB45sEJUomYJ) ， 值 得 一 谈 。2009 年 3 A 21 H, Nick Coghlan 在 
Python-Dev 邮件 列表 中 发 布 了 带 有 大 量 注释 的 yield from 扩充 实现 

Chttps://mail.python.org/pipermail/python-dev/2009-March/087382.html) 。 在 那 篇 消息 中 ， 
他 写 道 : 


不 管 人 们 是 否 觉得 使 用 yield from 结构 的 代码 难以 理解 ， 也 不 管 人 们 能 否 领会 协作 
式 多 线程 相关 的 概念 ，yield from 结构 底层 的 精巧 处 理 能 实现 真正 的 嵌 套 生成 器 。 


Yury Selivanov 撰写 的 “PEP 492—Coroutines with async and await 

syntax” Chttps://www.python.org/dev/peps/pep-0492/) 提议 为 Python 增加 两 个 关键 
F: async 和 await. async 与 其 他 现 有 的 关键 字 结 合 使 用 ， 用 于 定义 新 的 语言 结构 。 例 
W, async def 用 于 定义 协 程 ，async for 用 于 使 用 异步 迭代 器 (实现 aiter fil 
_anext 方法， 这 是 协 程 版 的 _iter 和 next 方法 ) 迭代 可 迭代 的 异步 对 象 。 
为 了 避免 与 即将 引入 的 async 关键 字 冲突 ，asyncio.async() 函数 将 在 Python 3.4.4 中 
重 命名 为 asyncio.ensure_future()。await 关键 字 的 作用 与 yield from 结构 类 似 ， 
不 过 只 能 在 以 async def 定义 的 协 程 ( 禁 止 使 用 yield 和 yield from) 中 使 用 。PEP 
492 使 用 新 句法 把 发 展 成 类 似 协 程 对 象 的 生成 器 与 全 新 的 原生 协 程 对 象 明确 地 区 分 开 了 。 
得 益 于 async 和 await 关键 字 ， 以 及 几 个 特殊 的 新 方法 ，Python 语言 将 对 原生 的 协 程 对 
象 提供 更 好 的 支持 。 协 程 已 经 做 好 准备 ， 会 成 为 Python 未 来 特别 重要 的 特性 ， 因 此 
Python 语言 应 该 更 好 地 集成 协 程 。 


使 用 离散 事件 仿真 系统 做 试验 是 熟悉 协作 式 多 任务 的 好 方法 。 维 基 百 科 中 的 “Discrete 
event simulation” 一 文 《https://en.wikipedia.org/wiki/Discrete_event_ simulation〉 是 不 错 的 入 
门 资料 。18Ashish Gupta 写 的 短篇 教程 “Writing a Discrete Event Simulation: Ten Easy 
Lessons” (http://www.cs.northwestern.edu/~agupta/ projects/networking/QueueSimulation/mm1 .] 
说 明了 如 何 自 己 动手 (不 使 用 特别 的 库 ) 编写 离散 事件 仿真 系统 。 那 篇 教程 中 的 代码 使 用 
Java 编写 ， 因 此 是 基于 类 的 ， 而 且 没 使 用 协 程 ， 不 过 可 以 轻松 地 移植 到 Python。 除 了 代码 
之 外 ， 那 篇 简短 的 教程 还 介绍 了 离散 事件 仿真 的 术语 和 组 件 。 把 Gupta 教程 中 的 示例 转换 
成 Python 类， 然后 再 转换 成 利用 协 程 的 类 ， 是 个 很 好 的 练习 。 




























































































































































































1 如今， 即使 终身 教授 也 同意 ， 维 要 百科 几乎 是 学 习 任 何 计算 机 科学 知识 的 入 门 首选 。 对 其 他 知识 而 言 虽 然 不 是 如 
此 ， 但 是 在 计算 机 科学 这 方面 ， 维 基 百 科 特 别 棒 。 





















































如 果 想 使 用 现成 的 Python 协 程 库 ， 可 以 使 用 SimPy。 这 个 库 的 在 线 文档 


(https://simpy.readthedocs.org/en/latest/) 中 说 道 : 


SimPy 是 使 用 标准 的 Python 开发 的 基于 进程 的 离散 事件 仿真 框架 ， 事 件 调 度 程 序 基于 
Python 的 生成 器 实 现 ， 因 此 还 可 用 于 异步 网 络 或 实现 多 智能 体系 统 〈 即 可 模拟 ， 也 可 
真正 通信 ) 。 


协 程 不 是 特别 新 的 Python 特性 ， 但 是 得 到 异步 编程 框架 支持 (Tornado 最 先 支 持 ) 之 前 ， 
只 在 较 窗 的 应 用 领域 内 使 用 。Python 3.3 引入 的 yield from 结构 和 Python 3.4 添加 的 
asyncio 包 可 能 会 提升 协 程 (和 Python 3.4 本 身 ) 的 使 用 量 。 但 写作 本 书 时 ，Python 3.4 
发 布 还 不 到 一 年 ， 因 此 观看 David Beazley 的 课程 ， 阅 读 涉及 这 个 话题 的 经 典 实例 时 ， 不 
会 有 太 多 内 容 深入 探讨 Python 协 程 编 程 。 不 过 ， 这 只 是 暂时 的 。 





























杂谈 
raise from lambda 
对 编程 语言 来 说 ， 关 键 字 的 作用 是 建立 控制 流程 和 表达 式 计算 的 基本 规则 。 
语言 的 关键 字 像 是 棋盘 游戏 中 的 棋子 。 对 国际 象棋 来 说 ， 关 键 字 是 贸 、 洲 、 点 、 鱼 、 
妃 和 从， 对 围棋 来 说 ， 关 键 字 是 e。。 
国际 象棋 的 棋 手 实现 计划 时 ， 有 六 种 类 型 的 棋子 可 用 ; 而 围棋 的 棋 手 看 起 来 只 有 一 种 
类 型 的 棋子 可 用 。 可 是 ， 在 围棋 的 玩法 中 ， 相 邻 的 棋子 能 构成 更 大 更 稳定 的 棋子 ， 形 
状 各 异 ， 不 受 束 缚 。 围 棋 棋子 的 某 些 排列 是 不 可 摧毁 的 。 围 棋 的 表现 力 比 国际 象棋 
强 。 围 棋 的 开局 走 法 有 361 FH, KAVA 1e+170 个 合 规 的 位 置 ， 而 国际 象棋 的 开局 走 
法 有 20 种， 有 1e+56 个 位 置 。 


如 果 为 国际 象棋 添加 一 个 新 棋子 ， 将 带 来 颠 履 性 的 改变 ;为 编程 语言 添加 一 个 新 的 关 
键 字 也 是 如 此 。 因 此 ， 语 言 的 设计 者 谨慎 考虑 引入 新 关键 字 是 合理 的 。 


表 16-1: 不 同 编程 语言 中 的 关键 字数 量 




































































































































































以 句法 极 简 而 著称 








编程 语言 ， 而 不 是 围棋 





指 ANSIC。C99 有 37 SHES, C1 有 44 个 





33 Python ”|Python 2.7 有 31 个 关键 字 ，Python 1.5 有 28 个 


























41 Ruby 关键 字 可 以 作为 标识 符 使 用 〈 例 如 ，class 也 是 一 个 方法 的 名 称 ) 














49 Java 与 C 语言 一 样 ， 基 本 类 型 的 名 称 (char. float 等 ) 是 保留 字 





60 JavaScript | 包含 Java 1.0 的 所 有 关键 字 ， 很 多 都 没 用 Chttp:/mzl.la/1JIr8fM) 





65 PHP 5.3 之 后 引入 了 七 个 关键 字 ， 如 goto. trait 和 yield 


据 cppreference.com 网 站 给 出 的 信息 
85 Chttp//en.cppreference.com/w/cpp/keyword) ，C++11 在 现 有 的 75 个 关键 字 的 基础 
上 添加 了 10 个 








S55) 











oo Scheme | 任何 人 都 能 定义 新 关键 字 


这 不 是 我 捏造 的 。 参 见 IBM ILE COBOL 手册 
Chttp://publib. boulder.ibm.com/iseries/v5r2/ic2924/books/x091317316.htm>) 











* 围棋 的 英文 是 Go， 因 此 作者 备注 这 里 说 的 是 Go 语言 。 




















一 一 译 者 注 











Python 3 添加 了 nonlocal 关键 字 ， 把 None, True 和 False 提升 为 关键 字 ， 废 弃 了 











print 和 exec。 在 语言 的 发 展 过 程 中 ， 弃 用 关键 字 十 分 罕见 。 表 16-1 列 出 了 儿 门 语 





言 ， 按 照 关 键 字 的 数量 排序 。 








Scheme 继承 了 Lisp 的 宏 ， 人 允许 任何 人 创建 特殊 的 形式 ， 为 语言 添加 新 的 控制 结构 和 





计算 规则 。 用 户 定义 的 这 种 标识 久 


门 语言 没有 保留 的 标识 符 ”( 标 准 的 第 45 
页 http://www.schemers.org/Documents/Standards/R5RS/r5rs.pdf) ， 但 是 MIT/GNU 
Scheme Chttp://www.gnu.org/software/mitscheme/documentation/mit-scheme-ref/Special- 
Form-Syntax.html#Special-Form-Syntax) 这 种 特殊 的 实现 预定 义 了 34 个 句法 关键 字 ， 
例如 if. lambda 和 define-syntax (用 于 创建 新 关键 字 的 关键 字 ) 。18 








Python 像 国际 象棋 ， 而 Scheme 像 围 棋 





o 











PHU VE“ AYES HE”. Scheme R5RS 标准 声称 ，“ 这 



































现在 ， 回 到 Python 句法 。 我 觉得 Guido 对 关键 字 的 态度 过 于 保守 了 。 关 键 字 的 数量 
应 该 少 ， 添 加 新 关键 字 可 能 会 破坏 大 量 代 码 ， 但 是 在 循环 中 使 用 else 揭示 了 一 个 递 
归 问 题 : 在 更 适合 使 用 新 关键 字 的 地 方 重 用 现 有 的 关键 字 。 在 for、while 和 try 





的 上 下 文中 ， 应 该 使 用 then 关键 字 


























Z, WZH else. 








在 这 个 问题 上 ， 最 严重 的 一 点 是 重用 def。 现 在 ， 这 个 关键 字 用 于 定 X PB 生成 器 
和 协 程 ， 而 这 些 对 象 之 间 的 差异 很 大 ， 不 应 该 使 用 相同 的 句法 声明 。 


引入 yield from 句法 尤其 让 人 失望 。 再 次 声明 ， 我 觉得 真 的 应 该 为 Python 使 用 者 
提供 新 的 关键 字 。 更 糟 的 是 ， 这 开启 了 新 的 趋势 : 把 现 有 的 关键 字 串 起 来 ， 创 建新 的 
































句法 ， 而 不 添加 描述 性 的 合理 


lambda 是 什么 意思 。 








关键 字 。 


TK 


O 




















HARARE BS raise from 








突 发 新 闻 


完成 本 书 的 技术 审 校 之 后 ，Yury Selivanov 提交 的 “PEP 492 一 Coroutines with async 
and await syntax” (https://www.python.org/dev/peps/pep-0492/) 好 像 要 被 接受 了 ， 将 在 
Python 3.5 中 实现 。20Guido van Rossum 和 Victor Stinner 都 支持 这 个 PEP， 前 者 是 
Python 语言 的 创造 者 ， 后 者 是 asyncio 库 的 主要 维护 者 ， 而 asyncio 库 将 是 新 句法 
的 主要 使 用 案例 。 回 应 Selivanov 在 Python-ideas 邮件 列表 中 发 布 的 消息 
(https://mail.python.org/pipermail/python-ideas/2015-April/033007.html) HY, Guido 其 
至 上 暗示， 为 了 实现 这 个 PEP”"! ， 可 能 会 延迟 发 布 Python 
3.5 Chttps://mail.python.org/pipermail/pythonideas/2015-April/033050.html) 。 


ZA KP A ATR AMAL 
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<The Value Of Syntax?” 一 文 《httpy/lambda-the-ukimate.org/node/4295〉 对 可 扩展 的 句法 和 编程 语言 的 可 用 性 做 了 有 趣 的 
探讨 。Lambda the Ultimate 讨论 组 〈httpVlambda-the-ultimate.org/) 是 编程 语言 极 客 的 度假 胜地 。 






































20JavaScript、Python 和 其 他 语言 都 有 这 样 的 问题 。 推 荐 阅读 Bob Nystrom 写 的 “What Color Is Your Function?” 一 文 
Chttp//journal stuffwithstuff.com/2015/02/01/what-color-is-your-function/) 。 





Ip ython 3.5 已 经 接受 了 PEP 492， 增 加 了 两 个 关键 字 : async 和 await。 一 一 编者 注 


B17% 使 用 期 物 处 理 并 友 


择 击 线程 的 往往 是 系统 程序 员 ， 他 们 考虑 的 使 用 场景 对 一 般 的 应 用 程序 员 来 说 ， 也 许 
一 生 都 不 会 遇 到 .……. 应 用 程序 员 遇 到 的 使 用 场景 ，99% 的 情况 下 只 需 知 道 如 何 派生 
一 堆 独 立 的 线程 ， 然 后 用 队列 收集 结果 。1 











一 一 Michele Simionato 


深度 思考 Python 的 人 





1 摘自 Michele Simionato 发 表 的 文章 “Threads, processes and concurrency in Python: some 
thoughts” (http//www.artima.com/weblogs/viewpost.jsp?thread=299551) ， 副 标题 为 “Removing the hype around the multicore 
(non) revolution and some (hopefully) sensible comment about threads and other forms of concurrency” o 





本 章 主要 讨论 Python 3.2 引入 的 concurrent.futures 模块 ， 从 PyPI 中 安装 futures 包 
Chttps://pypi.python.org/pypi/futures/) 之 后 ， 也 能 在 Python 2.5 及 以 上 版 本 中 使 用 这 个 库 。 
这 个 库 封装 了 前 面 的 引文 中 Michele Simionato 所 述 的 模式 ， 特 别 易 于 使 用 。 


这 一 章 还 会 介绍 “期 物 ”(future) ? 的 概念 。 期 物 指 一 种 对 象 ， 表 示 异 步 执行 的 操作 。 这 个 
概念 的 作用 很 大 ， 是 concurrent.futures 模块 和 asyncio 包 (第 18 章 讨论 ) 的 基 
Tifi o 















































“期 物 ” 是 我 自 创 的 词 ， 其 中 的 “ 物 "是 指 “ 物 件 ”(Cobject， 也 就 是 对 象 ) 。 起 初 读者 可 能 不 明 其 意 ， 可 与 期 货 、 期 权 和 期 
房 对 比 理解 。 一 一 译 者 注 















































下 面 举 个 示例 ， 作 为 引子 。 


17.1 API: 网络 下 载 的 三 种 风格 


为 了 高 效 处 理 网 络 WO， 需 要 使 用 并 发 ， 因 为 网 络 有 很 高 的 延迟 ， 所 以 为 了 不 浪费 CPU 周 
期 去 等 等， 最 好 在 收 到 网 络 响应 之 前 做 些 其 他 的 事 。 


为 了 通过 代码 说 明 这 一 点 ， 我 写 了 三 个 示例 程序 ， 从 网 上 下 载 20 个 国家 的 国旗 图 像 。 

一 个 示例 程序 flags.py 是 依 序 下 载 的 : 下 载 完 一 个 图 像 ， 并 将 其 保存 在 硬盘 中 之 后 ， ae 
求 下 一 个 图 像 。 另 外 两 个 脚本 是 并 发 下 载 的 : 几乎 同时 请 求 所 有 图 像 ， 下 载 完 一 个 文件 
就 保存 一 个 文件 。flags_threadpool.py 脚本 使 用 concurrent.futures 模块 ， 而 
flags_asyncio.py 脚本 使 用 asyncio 包 。 


示例 17-1 是 运行 这 三 个 脚本 得 到 的 结果 ， 每 个 脚本 都 运行 三 次 。 我 还 在 YouTube 上 发 布 
了 一 个 73 PALA Chttps://www.youtube.com/watch?v=A9e9Cyl UkKME) ， 让 你 观看 这 些 
脚本 的 运行 情况 ， 你 会 看 到 一 个 OS X Finder 窗口 ， 显 示 运 行 过 程 中 保存 的 国旗 图 像 文 
件 。 这 些 脚 本 从 flupy.org 下 载 图 像 ， 而 这 个 网 站 架设 在 CDN 之 后 ， 因 此 第 一 次 运行 时 可 
能 要 等 很 久 才 能 看 到 结果 。 示 例 17-1 中 显示 的 结果 是 运行 几 次 之 后 收集 的 ， 因 此 CDN 中 
DAA TETT. 


示例 17-1 3247 flags.py. flags threadpool.py 和 flags asyncio.py 脚本 得 到 的 结果 
















































































$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN @ 
20 flags downloaded in 7.26s @ 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN 
20 flags downloaded in 7.26s 

$ python3 flags.py 

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN 
20 flags downloaded in 7.09s 

$ python3 flags_threadpool.py 

DE BD CN JP ID EG NG BR RU CD IR MX US PH FR PK VN IN ET TR 
20 flags downloaded in 1.37s © 

$ python3 flags_threadpool.py 

EG BR FR IN BD JP DE RU PK PH CD MX ID US NG TR CN VN ET IR 
20 flags downloaded in 1.60s 

$ python3 flags_threadpool.py 

BD DE EG CN ID RU IN VN ET MX FR CD NG US JP TR PK BR IR PH 
26 flags downloaded in 1.22s 

$ python3 flags _asyncio.py @ 

BD BR IN ID TR DE CN US IR PK PH FR RU NG VN ET MX EG JP CD 
20 flags downloaded in 1.36s 

$ python3 flags _asyncio.py 

RU CN BR IN FR BD TR EG VN IR PH CD ET ID NG DE JP PK MX US 
26 flags downloaded in 1.27s 

$ python3 flags _asyncio.py 

RU IN ID DE BR VN PK MX US IR ET EG NG BD FR CN JP PH CD TRO 
26 flags downloaded in 1.42s 














_ 行 脚 本 后 ， 首 先 显示 下 载 过程 中 下 载 完毕 的 国家 代码 ， 最 后 显示 一 个 消息 ， 说 
明 耗 时 


© flags.py 脚本 下 载 20 个 图 像 平均 用 时 7.18 秒 。 

© flags_threadpool.py 脚本 平均 用 时 1.40 秒 。 

@ flags_asyncio.py 脚本 平均 用 时 1.35 秒 。 

加 注意 国家 代码 的 顺序 : 对 并 发 下 载 的 脚本 来 说 ， 每 次 下 载 的 顺序 都 不 同 。 

两 个 并 发 下 载 的 脚本 之 间 性 能 差异 不 大 ， 不 过 都 比 依 序 下 载 的 脚本 快 5 倍 多 。 这 只 是 一 个 


特别 小 的 任务 ， 如 果 把 下 载 的 文件 数量 增加 到 几 百 个 ， 并 发 下 载 的 脚本 能 比 依 序 下 载 的 脚 
本 快 20 倍 或 更 多 。 














ax 在 公 网 中 测试 HTTP 并 发 客户 端 可 能 不 小 心 变 成 拒绝 服务 (Denial-of- 
Service, DoS) 攻击 ， 或 者 有 这 么 做 的 嫌疑 。 我 们 可 以 像 示 例 17-1 那样 做 ， 因 为 那 
三 个 脚本 被 硬 编码 ， 限 制 只 发 起 20 个 请 求 。 如 果 想 大 规模 测试 HTTP 服务器， 应 该 
自己 架设 测试 服务 器 。 在 本 书 的 GitHub 仓库 中 
Chttps://github.com/fluentpython/example-code) , 17-futures/countries/README.rst 文件 
Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README.rst) 说 明了 如 何在 本 地 架设 Nginx 服务 器 。 


下 面 我 们 来 分 析 示 例 17-1 测试 的 两 个 脚本 flags.py 和 flags _ threadpool.py， 看 看 它们 的 
实现 方式 。 第 三 个 脚本 flags_asyncio.py Ë 留 到 第 18 章 再 分 析 。 将 这 三 个 脚本 一 
了 表明 一 个 观点 : 在 IO 密集 型 应 用 中 ， 如 果 代 码 写 得 正确 ， 那 么 不 管 使 用 哪 种 并 发 策 
(使 用 线程 或 asyncio 包 ) ， 吞 吐 量 都 比 依 序 执行 的 代码 高 很 多 。 


下 面 分 析 代 码 。 


17.1.1 依 序 下 载 的 脚本 


示例 17-2 不 太 有 吸引 力 ， 不 过 实现 并 发 下 载 的 脚本 时 会 重用 其 中 的 大 部 分 代码 和 设置 ， 
因此 值得 分 析 一 下 。 





























` 为 了 清楚 起 见 ， 示 例 17-2 没有 处 理 异常 。 稍 后 会 处 理 异常 ， 这 里 我 们 想 集 中 
说 明代 码 的 基本 结构 ， 以 便 和 并 发 下 载 的 脚本 进行 对 比 。 














示例 17-2 flags.py: 依 序 下 载 的 脚本 ; 另外 两 个 脚本 会 重用 其 中 几 个 函数 





import os 
import time 
import sys 


import requests @ 


POP2@_CC = (‘CN IN US ID BR PK NG BD RU JP ' 





'MX PH VN ET EG DE IR TR CD FR').split() @ 


BASE_URL 


"http://flupy.org/data/flags' © 


DEST_DIR = ‘downloads/' @ 


def save flag(img, filename): © 
path = os.path.join(DEST_DIR, filename) 
with open(path, "wb ') as fp: 
fp.write(img) 


def get_flag(cc): QO 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = requests.get(url) 
return resp.content 


def show(text): @ 
print(text, end=' ') 
sys.stdout.flush() 


def download_many(cc_list): © 
for cc in sorted(cc_list): © 
image = get_flag(cc) 
show(cc) 
save_flag(image, cc.lower() + '.gif') 


return len(cc_list) 


def main(download_many): @ 
to = time.time() 
count = download_many(POP2@_CC) 
elapsed = time.time() - to 
msg = '\n{} flags downloaded in {:.2f}s' 
print(msg.format(count, elapsed) ) 


if _name == "main _ 
main(download_many) @ 








@ 导入 requests 库 。 这 个 库 不 在 标准 库 中 ， 因 此 依照 惯例 ， 在 导入 标准 库 中 的 模块 
(os, time 和 sys) 之 后 导入 ， 而 且 使 用 一 个 空 行 分 隔 开 。 3 





Ty 











3 可 以 使 用 pip install requests 命令 安装 requests 库 。 一 一 编者 注 








@ 列 出 人 口 最 多 的 20 个 国家 的 ISO 3166 国家 代码 ， 按 照 人 口 数量 降序 排列 。 
O 获取 国旗 图 像 的 网 站 。 


4 国旗 图 像 出 自 CLA 世界 概况 〈http/lL.usa.gow1JIsmHJ) ， 由 
的 网 站 ， 以 此 避免 向 CIA.gov 发 起 DoS 攻击 的 嫌疑 。 












































国政 府 发 布 ， 属 公共 领域 。 我 把 这 些 图 像 复 制 到 了 自 
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北 



































@ 保存 图 像 的 本 地 目录 。 
O 把 img( 字 节 序 列 ) 保存 到 DEST_DIR 目录 中 ， 命 名 为 filename. 
O 指定 国家 代码 ， 构 建 URL， 然 后 下 载 图像 ， 返 回响 应 中 的 三 进 制 内 容 。 


O 显示 一 个 字符 串 ， 然 后 刷新 sys. stdout， 这 样 能 在 一 行 消息 中 看 到 进度 。 在 Python 
中 得 这 么 做 ， 因 为 正常 情况 下 ， 遇 到 换行 才 会 刷新 stdout 缓冲 。 


© download_many 是 与 并 发 实现 比较 的 关键 函数 。 
© 按 字 母 表 顺 序 迭 代 国 家 代码 列表 ， 明 确 表明 输出 的 顺序 与 输入 一 致 。 返 回 下 载 的 国旗 


数量 。 












































O main 函数 记录 并 报告 运行 download_many 函数 之 后 的 耗 时 。 


D main 函数 必须 调用 执行 下 载 的 函数 ;我 们 把 download_many 函数 当 作 参数 传 给 main 
rie 这 样 main 函数 可 以 用 作 库 函数 ， 在 后 面 的 示例 中 接收 download_many 函数 的 其 
实现 。 





~I Kenneth Reitz 开发 的 requests 库 可 通过 PyPI 安装 
(https://pypi.python.org/pypi/requests) ， 比 Python 3 标准 库 中 的 urllib. request 模 
块 更 易于 使 用 。 其 实 ，requests 库 提供 的 API 更 符合 Python 的 习惯 用 法 ， 而 且 与 
Python 2.6 及 以 上 版 本 兼容 。 因 为 Python 2 中 删除 了 urllib2, Python3 又 使 用 了 其 
他 名 称 ， 所 以 不 管 使 用 哪 一 版 Python， 使 用 requests 库 都 更 方便 。 


flags.py 脚本 中 没有 什么 新 知识 ， 只 是 与 其 他 脚本 对 比 的 基准 ， 而 且 我 把 它 作为 一 个 库 使 
用 ， 避 免 实 现 其 他 脚本 时 重复 编写 代码 。 下 面 分 析 使 用 concurrent. futures 模块 重新 
实现 的 版 本 。 
































17.1.2 ”使 用 concurrent .futures 模 块 下 载 


concurrent.futures 模块 的 主要 特色 是 ThreadPoolExecutor 和 
ProcessPoolExecutor 类 ， 这 两 个 类 实现 的 接口 能 分 别 在 不 同 的 线程 或 进程 中 执行 可 调 
用 的 对 象 。 这 两 个 类 在 内 部 维护 着 一 个 工作 线程 或 进程 池 ， 以 及 要 执行 的 任务 队列 。 不 
过 ， 这 个 接口 抽象 的 层级 很 高 ， 像 下 载 国 旗 这 种 简单 的 案例 ， 无 需 关 心 任 何 实现 细节 。 


示例 17-3 展示 如 何 使 用 ThreadPoo1LExecutor .map 方法 ， 以 最 简单 的 方式 实现 并 发 下 
载 。 




















示例 17-3 flags threadpool.py: 使 用 futures.ThreadPoolExecutor 类 实现 多 线程 
下 载 的 脚本 





from concurrent import futures 


from flags import save flag, get_flag, show, main @ 


MAX_WORKERS = 20 @ 


def download_one(cc): © 
image = get_flag(cc) 


show(cc) 
save_flag(image, cc.lower() + '.gif') 
return cc 
def download_many(cc_list): 
workers = min(MAX_WORKERS, len(cc_list)) @ 
with futures. ThreadPoolExecutor(workers) as executor: © 
res = executor.map(download_one, sorted(cc_list)) 
return len(list(res)) @ 
if _name == '_ main 


main(download_many) ©® 








@ 重用 flags 模块 〈 见 示例 17-2) 中 的 几 个 函数 。 
© 设 定 ThreadPoolExecutor 类 最 多 使 用 几 个 线程 。 
O 下 载 一 个 图 像 的 函数 ;这 是 在 各 个 线程 中 执行 的 函数 。 


O 设 定 工作 的 线程 数量 : 使 用 允许 的 最 大 值 (MAX_WORKERS) 与 要 处 理 的 数量 之 间 较 小 
的 那个 值 ， 以 免 创 建 多 余 的 线程 。 


O 使 用 工作 的 线程 数 实例 化 ThreadPoolExecutor 类 ; executor. exit _ 方法 会 调 
用 executor. shutdown(wait=True) 方法 ， 它 会 在 所 有 线程 都 执行 完毕 前 阻塞 线程 。 


@ map 方法 的 作用 与 内 置 的 map 函数 类 似 ， 不 过 download_one 函数 会 在 多 个 线程 中 并 
发 调用 ;map 方法 返回 一 个 生成 器 ， 因 此 可 以 途 代 ， 获 取 各 个 函数 返回 的 值 。 


@ 返回 获取 的 结果 数量 ， 如 果 有 线程 抛 出 异常 ， 异 常会 在 这 里 抛 出 ， 这 与 隐 式 调用 
next() 函数 从 迭代 器 中 获取 相应 的 返回 值 一 样 。 


Q 调用 flags 模块 中 的 main 函数 ， 传 入 download_many 函数 的 增强 版 。 

注意 ， 示 例 17-3 中 的 download_one 函数 其 实 是 示例 17-2 中 download_many 函数 的 
a 编写 并 发 代码 时 经 常 这 样 重 构 : 把 依 序 执行 的 for 循环 体 改 成 函数 ， 以 便 
并 发 调用 。 


我 们 用 的 库 叫 concurrency .futures， 可 是 在 示例 17-3 中 没有 见 到 期 物 ， 因 此 你 可 能 
想 知道 期 物 在 哪里 。 下 一 节 会 解答 这 个 问题 。 


17.1.3 WHERE 


























































































































期 物 是 concurrent. futures 模块 和 asyncio 包 的 重要 组 件 ， 可 是 ， 作 为 这 两 个 库 的 用 
户 ， 我 们 有 时 却 见 不 到 期 物 。 示 例 17-3 在 背后 用 到 了 期 物 ， 但 是 我 编写 的 代码 没有 直接 
使 用 。 这 一 节 概 述 期 物 ， 还 会 举 一 个 例子 ， 展 示 用 法 。 


从 Python 3.4 起 ， 标 准 库 中 有 两 个 名 为 Future 的 类 : concurrent .futures.Future 和 
asyncio.Future。 这 两 个 类 的 作用 相同 : 两 个 Future 类 的 实例 都 表示 可 能 已 经 完成 或 
者 尚未 完成 的 延迟 计算 。 这 与 Twisted 引擎 中 的 Deferred 类 、Tornado 框架 中 的 Future 
类 ， 以 及 多 个 JavaScript 库 中 的 Promise 对 象 类 似 。 


期 物 封 装 竺 完成 的 操作 ， 可 以 放 入 队列 ， 完 成 的 状态 可 以 查询 ， 得 到 结果 (或 抛 出 异常 
后 可 以 获取 结果 (或 异常 〉。 


我 们 要 记 住 一 件 事 : 通常 情况 下 自己 不 应 该 创建 期 物 ， 而 只 能 由 并 发 框架 
(concurrent.futures 或 asyncio) 实例 化 。 原 因 很 简单 : 期 物 表 示 终 将 发 生 的 事 
情 ， 而 确定 某 件 事 会 发 生 的 唯一 方式 是 执行 的 时 间 已 经 排 定 。 因 此 ， 只 有 排 定 把 某 件 事 交 
给 concurrent. futures.Executor 子 类 处 理 时 ， 才 会 创建 
concurrent.futures.Future 实例 。 例 如 ，Executor .submit() 方法 的 参数 是 一 个 可 
调用 的 对 象 ， 调 用 这 个 方法 后 会 为 传 入 的 可 调用 对 象 排 期 ， 并 返回 一 个 期 物 。 


客 户 端 代码 不 应 该 改变 期 物 的 状态 ， 并 发 框架 在 期 物 表 示 的 延迟 计算 结束 后 会 改变 期 物 的 
状态 ， 而 我 们 无 法 控制 计算 何 时 结束 。 


这 两 种 期 物 都 有 .done() 方法 ， 这 个 方法 不 阻塞， 返回 值 是 布尔 值 ， 指 明 期 物 链接 的 可 
调用 对 象 是 否 已 经 执行 。 客 户 端 代码 通常 不 会 询问 期 物 是 否 运行 结束 ， 而 是 会 等 待 通知 。 
因此 ， 两 个 Future 类 都 有 .add_done_callback() 方法 : 这 个 方法 只 有 一 个 参数 ， 类 
型 是 可 调用 的 对 象 ， 期 物 运行 结束 后 会 调用 指定 的 可 调用 对 象 。 


此 外 ， 还 有 .result() 方法 。 在 期 物 运 行 结 束 后 调用 的 话 ， 这 个 方法 在 两 个 Future 类 
中 的 作用 相同 : 返回 可 调用 对 象 的 结果 ， 或 者 重新 抛 出 执行 可 调用 的 对 象 时 抛 出 的 异常 。 
可 是 ， 如 果 期 物 没 有 运行 结束 ，result 方法 在 两 个 Future 类 中 的 行为 相差 很 大 。 对 
concurrency.futures.Future 实例 来 说 ， 调 用 f.result() 方法 会 阻塞 调用 方 所 在 的 
线程 ， 直 到 有 结果 可 返回 。 此 时 ，result 方法 可 以 接收 可 选 的 timeout 参数 ， 如 果 在 指 
定 的 时 间 内 期 物 没有 运行 完毕 ， 会 抛 出 TimeoutError 异常 。 读 到 18.1.1 节 你 会 发 

现 ，asyncio.Future.result 方法 不 支持 设 定 超时 时 间 ， 在 那个 库 中 获取 期 物 的 结果 最 
好 使 用 yield from 结构 。 不 过 ， 对 concurrency .futures .Future 实例 不 能 这 么 做 。 


这 两 个 库 中 有 几 个 函数 会 返回 期 物 ， 其 他 函数 则 使 用 期 物 ， 以 用 户 易于 理解 的 方式 实现 自 
身 。 使 用 17-3 中 的 Executor .map 方法 属于 后 者 : JBM a at, Tea 

o 方法 调用 各 个 期 物 的 result 方法 ， 因 此 我 们 得 到 的 是 各 个 期 物 的 结果 ， 而 非 
HDA 


为 了 从 实用 的 角度 理解 期 物 ， 我 们 可 以 使 用 concurrent. futures.as_ completed 函数 

Chttps://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.as completed) 重 
ANB 17-3。 这 个 函数 的 参数 是 一 个 期 物 列 表 ， 返 回 值 是 一 个 迭代 器 ， 在 期 物 运行 结束 
后 产 出 期 物 。 


为 了 使 用 futures.as_completed 函数 ， 只 需 修改 download_many 函数 ， 把 较 抽 象 的 














































































































































































































executor.map 调用 换 成 两 个 for 循环 : 一 个 用 于 创建 并 排 定 期 物 ， 另 一 个 用 于 获取 期 物 
的 结果 。 同 时 ， 我 们 会 添加 几 个 print 调用 ， 显 示 运 行 结 束 前 后 的 期 物 。 修 改 后 的 

download_many 函数 如 示例 17-4， 代 码 行 数 由 5 变 成 17， 不 过 现在 我 们 能 一 括 神 秘 的 期 
物 了 。 其 他 函数 不 变 ， 与 示例 17-3 中 的 一 样 。 


示例 17-4 flags threadpool ac.py: 把 download_many 函数 中 的 executor .map 方法 
换 成 executor.submit 方法 和 futures.as_completed 函数 


























def download_many(cc_list): 
cc_list = cc_list[:5] © 
with futures.ThreadPoolExecutor(max_workers=3) as executor: @ 
to_do = [] 
for cc in sorted(cc_list): © 
future = executor.submit(download_one, cc) @ 
to_do.append(future) © 
msg = ‘Scheduled for {}: {}' 
print(msg.format(cc, future)) © 


results = [] 

for future in futures.as completed(to do): @ 
res = future.result() © 
msg = '{} result: {!r}' 
print(msg.format(future, res)) © 
results.append(res) 


return len(results) 








@ 这 次 演示 只 使 用 人 口 最 多 的 5 个 国家 。 
© 把 max_workers 硬 编码 为 3， 以 便 在 输出 中 观察 待 完成 的 期 物 。 
O 按照 字母 表 顺 序 迭 代 国 家 代码 ， 明 确 表明 输出 的 顺序 与 输入 一 致 。 


@ executor. submit 方法 排 定 可 调用 对 象 的 执行 时 间 ， 然 后 返回 一 个 期 物 ， 表 示 这 个 符 
执行 的 操作 。 


O 存储 各 个 期 物 ， 后 面 传 给 as_completed 函数 。 
@ 显示 一 个 消息 ， 包 含 国家 代码 和 对 应 的 期 物 。 

@ as_completed 函数 在 期 物 运行 结束 后 产 出 期 物 。 
O 获取 该 期 物 的 结果 。 

O 显示 期 物 及 其 结果 。 


注意 ， 在 这 个 示例 中 调用 future.result() 方法 绝 不 会 阻塞 ， 因 为 future 由 
as_completed 函数 产 出 。 运 行 示 例 17-4 得 到 的 输出 如 示例 17-5 所 示 。 






























































示例 17-5 flags threadpool ac.py 脚本 的 输出 


$ python3 flags_threadpool_ac.py 

Scheduled for BR: <Future at @x1@@791518 state=running> @ 

Scheduled for CN: <Future at 0x100791710 state=running> 

Scheduled for ID: <Future at @x100791a9@ state=running> 

Scheduled for IN: <Future at @x1@180708@ state=pending> @ 

Scheduled for US: <Future at @x101807128 state=pending> 

CN <Future at @x10@79171@ state=finished returned str> result: 'CN' © 
BR ID <Future at 6x166791518 state=finished returned str> result: 'BR' @ 
<Future at 0x100791a90 state=finished returned str> result: 'ID' 

IN <Future at @x101807080 state=finished returned str> result: 'IN' 

US <Future at 0x101807128 state=finished returned str> result: 'US' 


5 flags downloaded in 0.70s 











@ 排 定 的 期 物 按 字 母 表 排序 ， 期 物 的 repr() 方法 会 显示 期 物 的 状态 :前 三 个 期 物 的 状 
态 是 running， 因 为 有 三 个 工作 的 线程 。 


四 后 两 个 期 物 的 状态 是 pending， 等 待 有 线程 可 用 。 


O 这 一 行 里 的 第 一 个 CN 是 运行 在 一 个 工作 线程 中 的 download_one 函数 输出 的 ， 随 后 的 
内 容 是 download_many 函数 输出 的 。 


@ 这 里 有 了 两 个 线程 输出 国家 代码 ， 然 后 主线 程 中 的 download_many 函数 输出 第 一 个 线程 
的 结果 。 











` 多 次 运行 fags threadpool ac.py 脚本 ， 看 到 的 结果 有 所 不 同 。 如 果 把 
max_workers 参数 的 值 增 大 到 5， 结果 的 顺序 变化 更 多 。 把 max_workers 参数 的 值 
设 为 1， 代 码 依 序 运行 ， 结 果 的 顺序 始终 与 调用 submit 方法 的 顺序 一 致 。 


我 们 分 析 了 两 个 版 本 的 使 用 concurrent.futures 库 实现 的 下 载 脚本 : 使 用 
ThreadPoolExecutor.map 方法 的 示例 17-3 和 使 用 futures .as_completed 函数 的 示 
例 17-4。 如 果 你 对 flags_asyncio.py 脚本 的 代码 好 奇 ， 可 以 看 一 眼 第 18 章 中 的 示例 18-5。 


严格 来 说 ， 我 们 目前 测试 的 并 发 脚本 都 不 能 并 行 下 载 。 使 用 concurrent. futures 库 实 
现 的 那 两 个 示例 受 GIL (Global Interpreter Lock， 全 局 解释 器 锁 ) 的 限制 ， 而 
flags_asyncio.py 脚本 在 单个 线程 中 运行 。 

读 到 这 里 ， 你 可 能 会 对 前 面 做 的 非 正 规 基准 测试 有 下 述 疑 问 。 


。 既然 Python 线程 受 GIL 的 限制 ， 任 何 时 候 都 只 允许 运行 一 个 线程 ， 那 么 
flags_threadpool.py 脚本 的 下 载 速度 怎么 会 比 flags.py 脚本 快 5 倍 ? 


° Pogs_ssyncio py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎么 会 比 后 者 快 5 
音 ? 























第 二 个 问题 在 18.3 节 解 答 。 


GIL 几乎 对 IO 密集 型 处 理 无 害 ， 原 因 参 见 下 一 节 。 




















17.2 ”阻塞 型 TO 和 GIL 


CPython 解释 器 本 身 束 不 是 线程 安全 的 ， 因 此 有 全 局 解释 器 锁 (GIL) ， 一 次 只 允许 使 用 
一 个 线程 执行 Python 字 节 码 。 因 此 ， 一 个 Python 进程 通常 不 能 同时 使 用 多 个 CPU 核 
MN o 



































| 5 这 是 CPython 解释 器 的 局 上限， 与 Python 语言 本 身 无 关 。Jython 和 IronPython 没有 这 种 限制 。 不 过 ， 目 前 最 快 的 Python 
解释 器 PyPy 也 有 GIL. 











编写 Python 代码 时 无 法 控制 GIL， 不 过 ， 执 行 耗 时 的 任务 时 ， 可 以 使 用 一 个 内 置 的 函数 或 
一 个 使 用 C 语言 编写 的 扩展 释放 GIL. 其 实 ， 有 个 使 用 C 语言 编写 的 Python 库 能 管理 
GIL， 自 行 启动 操作 系统 线程 ， 利 用 全 部 可 用 的 CPU 核心 。 这 样 做 会 极 大 地 增加 库 代 码 的 
复杂 度 ， 因 此 大 多 数 库 的 作者 都 不 这 么 做 。 


然而 ， 标 准 库 中 所 有 执行 阻塞 型 IO 操作 的 函数 ， 在 等 待 操作 系统 返回 结果 时 都 会 释放 
GIL。 这 意味 着 在 Python 语言 这 个 层 次 上 可 以 使 用 多 线程， 而 VO 密集 型 Python 程序 能 从 
中 受益 : 一 个 Python 线程 等 待 网 络 响应 时 ， 阻 塞 型 IO 函数 会 释放 GIL， 再 运行 一 个 线 





























因此 David Beazley Aiki: “Python 线程 毫 无 作用 。”” 








6H “Generators: The Final Frontier” (http://www.dabeaz.com/finalgenerator/) ， 第 106 张 幻 灯 片 。 





~I Python 标准 库 中 的 所 有 阻塞 型 VO 函数 都 会 释放 GILL， 人 允许 其 他 线程 运 
行 。time.sleep() 函数 也 会 释放 GIL。 因 此 ， 尽 管 有 GIL, Python 线程 还 是 能 在 IO 
密集 型 应 用 中 发 挥 作用 。 


下 面 简单 说 明 如 何在 CPU 密集 型 作业 中 使 用 concurrent .futures 模块 轻松 绕 开 GIL. 











17.3 ”使 用 concurrent.futures 模 块 启动 进程 


concurrent.futures 模块 的 文档 

(https://docs.python.org/3/library/concurrent.futures.html 〉 副 标题 是 “Launching parallel 
tasks”( 执 行 并 行 任务 )。 这 个 模块 实现 的 是 真正 的 并 行 计算 ， 因 为 它 使 用 
ProcessPoolExecutor 类 把 工作 分 配给 多 个 Python 进程 处 理 。 因 此 ， 如 果 需 要 做 CPU 
密集 型 处 理 ， 使 用 这 个 模块 能 绕 开 GILL， 利 用 所 有 可 用 的 CPU 核心 。 















































ProcessPoolExecutor 和 ThreadPoolExecutor 类 都 实现 了 通用 的 Executor 接口 ， 


此 使 用 concurrent.futures 模块 能 特别 轻松 地 把 基于 线程 的 方案 转 成 基于 进程 的 方 


K 


下 载 国旗 的 示例 或 其 他 VO 密集 型 作业 使 用 ProcessPoolExecutor 类 得 不 到 任何 好 处 。 
这 一 点 易于 验证 ， 只 需 把 示例 17-3 中 下 面 这 几 行 : 











def download_many(cc_list): 
workers = min(MAX_WORKERS, len(cc_list)) 


with futures. ThreadPoolExecutor(workers) as executor: 





改 成 : 


def download_many(cc_list): 
with futures.ProcessPoolExecutor() as executor: 


对 简单 的 用 途 来 说 ， 这 两 个 实现 Executor 接口 的 类 唯一 值得 注意 的 区 别 

是 ，ThreadPoolExecutor. init _ 方法 需要 max_workers 参数 ， 指 定 线程 池 中 线程 
的 数量 。 在 ProcessPoolExecutor 类 中 ， 那 个 参数 是 可 选 的 ， 而 且 大 多 数 情况 下 不 使 用 
一 默认 值 是 os.cpu_count() 函数 返回 的 CPU 数量 。 这 样 处 理 说 得 通 ， 因 为 对 CPU 密 
集 型 的 处 理 来 说 ， 不 可 能 要 求 使 用 超过 CPU 数量 的 职 程 。 而 对 VO 密集 型 处 理 来 说 ， 可 
以 在 一 个 ThreadPoolExecutor 实例 中 使 用 10 个 、100 个 或 1000 个 线程 ， 最 佳 线 程 数 
取决 于 做 的 是 什么 事 ， 以 及 可 用 内 存 有 和 多少， 因此 要 仔细 测试 才能 找到 最 佳 的 线程 数 。 


经 过 几 次 测试 ， 我 发 现 使 用 ProcessPoolExecutor 实例 下 载 20 面 国旗 的 时 间 增 加 到 了 
1.8 秒 ， 而 原来 使 用 ThreadPoolExecutor 的 版 本 是 1.4 秒 。 主 要 原因 可 能 是 ， 我 的 电脑 
用 的 是 四 核 CPU， 因 此 限制 只 能 有 4 个 并 发 下 载 ， 而 使 用 线程 池 的 版 本 有 20 个 工作 的 线 


程 。 


ProcessPoolExecutor 的 价值 体现 在 CPU 密集 型 作业 上 。 我 用 两 个 CPU 密集 型 脚本 做 
了 一 些 性 能 测试 。 








































































































arcfour futures.py 


这 个 脚本 《代码 清单 参见 示例 A-7) 纯粹 使 用 Python 实现 RC4 算法 。 我 加 密 并 解密 
了 12 个 字 节 数组 ， 大 小 从 149KB 到 384KB 不 等 。 








sha_futures.py 


这 个 脚本 《代码 清单 参见 示例 A-9) 使 用 标准 库 中 的 hashlib 模块 (使 用 OpenSSL 
库 实 现 ) 实现 SHA-256 算法 。 我 计算 了 12 个 1MB 字 节 数组 的 SHA-256 散 列 值 。 


这 两 个 脚本 除了 显示 汇总 结果 之 外 ， 没 有 使 用 IJO。 构 建 和 处 理 数据 的 过 程 都 在 内 存 中 完 
成 ， 因 此 IO 对 执行 时 间 没 有 影响 。 


我 运行 了 64 次 RC4 示例 ，48 次 SHA 示例， 平均 时 间 如 表 17-1 所 示 。 统 计 的 时 间 中 包含 
派生 工作 进程 的 时 间 。 


表 17-1: 在 配 有 Intel Core i7 2.7 GHz 四 核 CPU 的 设备 中 ， 使 用 Python 3.4 运 行 RC4 和 
SHA 示例 ， 分 别 使 用 1-4 个 职 程 得 到 的 时 间 和 提速 倍数 









































职 程 数 | 运行 RC4 示 例 的 时 间 | RC4 示 例 的 提速 倍数 | 运行 SHA 示例 的 时 间 | SHA 示例 的 提速 倍数 





1 11.48s 





2 8.65s 
3 6.04s 
4 5.58s 2.06x 10.89s 2.08x 














可 以 看 出 ， 对 加 密 算 法 来 说 ， 使 用 ProcessPoolExecutor 类 派生 4 个 工作 的 进程 后 〈 如 
果 有 4 个 CPU 核心 的 话 ) ， 性 能 可 以 提高 两 倍 。 


对 那个 纯粹 使 用 Python 实现 的 RC4 示例 来 说 ， 如 果 使 用 PyPy 和 4 个 职 程 ， 与 使 用 
CPython 和 4 个 职 程 相 比 ， 速 度 能 提高 3.8 倍 。 以 表 17-1 中 使 用 CPython 和 一 个 职 程 的 运 
行 时 间 为 基准 ， 速 度 提升 了 7.8 倍 。 





























~I 如 果 使 用 Python 处 理 CPU 密集 型 工作 ， 应 该 试 试 PyPy Chttp://pypy.org) 。 使 
用 PyPy 运行 arcfour futures.py 脚本 ， 速 度 快 了 3.8~5.1 倍 ; 具体 的 倍数 由 职 程 的 数量 
决定 。 我 测试 时 使 用 的 是 PyPy 2.4.0， 这 一 版 与 Python 3.2.5 兼容 ， 因 此 标准 库 中 有 


concurrent .futures 模块 。 


下 面 通过 一 个 演示 程序 来 研究 线程 池 的 行为 。 这 个 程序 会 创建 一 个 包含 3 个 职 程 的 线程 
Hh, 3247 5 个 可 调用 的 对 象 ， 输 出 带 有 时 间 戳 的 消息 。 



































17.4 ”实验 Executor .map 方 法 


若 想 并 发 运行 多 个 可 调用 的 对 象 ， 最 简单 的 方式 是 使 用 示例 17-3 中 见 过 的 
Executor.map 方法 。 示 例 17-6 中 的 脚本 演示 了 Executor.map 方法 的 某 些 运作 细节 。 
这 个 脚本 的 输出 在 示例 17-7 中 。 











示例 17-6 demo_executor_map.py: 简单 演示 ThreadPoolExecutor 类 的 map 方法 





from time import sleep, strftime 
from concurrent import futures 


def display(*args): © 
print(strftime('[%H:%M:%S]'), end=' ') 
print (*args) 


def loiter(n): @ 
msg = ‘{}loiter({}): doing nothing for {}s...' 
display(msg.format('\t'*n, n, n)) 
sleep(n) 
msg = '{}loiter({}): done.' 
display(msg.format('\t'*n, n)) 
return n * 10 © 


def main(): 
display('Script starting. ') 
executor = futures. ThreadPoolExecutor(max_workers=3) @ 
results = executor.map(loiter, range(5)) © 
display('results:', results) 
display('Waiting for individual results:') 
for i, result in enumerate(results): @ 
display('result {}: {}'.format(i, result)) 


main() 








O 这 个 古 数 的 作用 很 简单 ， 把 传 入 的 参数 打印 出 来 ， 并 在 前 面 加 上 [HAMS] 格式 的 
时 间 截 。 


四 loiter 函数 什么 也 没 做 ， 只 是 在 开始 时 显示 一 个 消息 ， 然 后 休眠 n 秒 ， 最 后 在 结束 时 
再 显示 一 个 消息 ;消息 使 用 制 表 符 缩 进 ， 缩 进 的 量 由 普 的 值 确定 。 


© loiter 函数 返回 n_ * 16， 以 便 让 我 们 了 解 收集 结果 的 方式 。 
@ 创建 ThreadPoolExecutor 实例 ， 有 3 个 线程 。 


O 把 五 个 任务 提交 给 executor (因为 只 有 3 个 线程 ， 所 以 只 有 3 个 任务 会 立即 开 
始 : loiter(0), loiter(1) 和 loiter(2)) ; 这 是 非 阻塞 调用 。 










































































O 立即 显示 调用 executor .map 方法 的 结果 : 一 个 生成 器 ， 如 示例 17-7 中 的 输出 所 示 。 


@ for 循环 中 的 enumerate 函数 会 隐 式 调用 next(results)， 这 个 函数 又 会 在 〈 内 部 ) 
表示 第 一 个 任务 (loiter(6)) 的 下 期 物 上 调用 _f.result() Wik. result WEA 
寨 ， 直 到 期 物 运 行 结束 ， 因 此 这 个 循环 每 次 迭代 时 都 要 等 待 下 一 个 结果 做 好 准备 。 


我 建议 你 运行 示例 17-6， 看 着 结果 逐渐 显示 出 来 。 此 外 ， 还 可 以 修改 
ThreadPoolExecutor 构造 方法 的 max_workers 参数 ， 以 及 executor.map 方法 中 
range 函数 的 参数 ， 或 者 自己 挑选 几 个 值 ， 以 列表 的 形式 传 给 map 方法 ， 得 到 不 同 的 延 


No 
































示例 17-7 是 运行 示例 17-6 得 到 的 输出 示例 。 
示例 17-7 示例 17-6 中 demo executor map.py 脚本 的 运行 示例 


$ python3 demo executor map.py 

[15:56:50] Script starting. © 

[15:56:50] loiter(@): doing nothing for ðs... © 

[15:56:50] loiter(@): done. 

[15:56:50] loiter(1): doing nothing for 1s... © 

[15:56:50] loiter(2): doing nothing for 2s... 

[15:56:50] results: <generator object result_iterator at @x106517163> @ 
[15:56:50] loiter(3): doing nothing for 3s... © 
[15:56:50] Waiting for individual results: 

[15:56:50] result 0: 6 @ 

[15:56:51] loiter(1): done. @ 

[15:56:51] loiter(4): doing nothing for 4s... 
[15:56:51] result 1: 10 O 

[15:56:52] loiter(2): done. © 

[15:56:52] result 2: 20 

[15:56:53] loiter(3): done. 

[15:56:53] result 3: 30 

[15:56:55] loiter(4): done. @ 

[15:56:55] result 4: 40 





@ 这 次 运行 从 15:56:50 开始 。 


O 第 一 个 线程 执行 loiter(8)， 因 此 休眠 0 秒 ， 甚 至 会 在 第 二 个 线程 开始 之 前 就 结束 ， 
不 过 具体 情况 因 人 而 异 。7 












































?具体 情况 因 人 而 异 : 对 线程 来 说 ， 你 永远 不 知道 某 一 时 刻 事 件 的 具体 排序 ， 有 可 能 在 另 一 台 设备 中 会 看 到 
loiter(1) 在 loiter(®) 结束 之 前 开始 ， 这 是 因为 sleep 函数 总 会 释放 GIL。 因 此 ， 即 使 休眠 0 秒 ， Python 也 可 能 
会 切换 到 另 一 个 线程 。 
























































© loiter(1) 和 loiter(2) 立即 开始 《因为 线程 池 中 有 三 个 职 程 ， 可 以 并 发 运行 三 个 函 
数 ) 。 


@ 这 一 行 表 明 ，executor .map 方法 返回 的 结果 Cresults) 是 生成 器 ; NEA SIME 
务 ， 也 不 管 max_workers 的 值 是 多 少 ， 目 前 不 会 阻塞 。 























@ loiter(®) 运行 结束 了 ， 第 一 个 职 程 可 以 启动 第 四 个 线程 ， 运 行 loiter(3). 


@ 此 时 执行 过 程 可 能 阻塞， 具体 情况 取决 于 传 给 loiter 函数 的 参数 : results 生成 器 
的 __next _ 方法 必须 等 到 第 一 个 期 物 运 行 结 束 。 此 时 不 会 阻塞 ， 因 为 1oiter(6) 在 循 
环 开始 前 结束 。 注 意 ， 这 一 点 之 前 的 所 有 事件 都 在 同一 刻 发 生 一 一 15:56:50。 


O 一 秒 钟 后 ， 即 15:56:51, loiter(1) 运行 完毕 。 这 个 线程 用 置 ， 可 以 开始 运行 
loiter(4). 





























O 显示 loiter(1) 的 结果 : 10. WE, for 循环 会 阻塞 ， 等 待 loiter(2) 的 结 





© 同上: loiter(2) 运行 结束 ， 显 示 结 果 ; loiter(3) 也 一 样 。 





© 2 秒 钟 后 1oiter(4) 运行 结束 ， 因 为 loiter(4) 在 15:56:51 时 开始 ， 休 眠 了 4#. 


Executor.map 函数 易于 使 用 ， 不 过 有 个 特性 可 能 有 用 ， 也 可 能 没有 用， 具体 情况 取决 于 需 
求 : 这 个 函数 返回 结果 的 顺序 与 调用 开始 的 顺序 一 致 。 如 果 第 一 个 调用 生成 结果 用 时 10 
秒 ， 而 其 他 调用 只 用 1 秒 ， 代 码 会 阻塞 10 秒 ， 获 取 map 方法 返回 的 生成 器 产 出 的 第 一 个 
结果 。 在 此 之 后 ， 获 取 后 续 结 果 时 不 会 阻塞 ， 因 为 后 续 的 调用 已 经 结束 。 如 果 必 须 等 到 获 
取 所 有 结果 后 再 处 理 ， 这 种 行为 没 问题 ; 不 过 ， 通 常 更 可 取 的 方式 是 ， 不 管 提 交 的 顺序 ， 
只 要 有 结果 就 获取 。 为 此 ， 要 把 Executor. submit 方法 和 futures.as_completed Ñ 
数 结合 起 来 使 用 ， 像 示例 17-4 中 那样 。17.5.2 节 会 继续 讨论 这 种 方式 。 















































AI executor .submit 和 futures.as_completed 这 个 组 合 比 executor .map 更 
灵活 ， 因 为 submit 方法 能 处 理 不 同 的 可 调用 对 象 和 参数 ， 而 executor .map 只 能 处 
理 参 数 不 同 的 同一 个 可 调用 对 象 。 此 外 ， 传 给 futures.as_completed 函数 的 期 物 
集合 可 以 来 自 多 个 Executor 实例 ， 例 如 一 些 由 ThreadPoolExecutor 实例 创建 ， 
54 — #6 ProcessPoolExecutor 实例 创建 。 


下 一 节 根 据 新 的 需求 继续 实现 下 载 国旗 的 示例 ， 这 一 次 不 使 用 executor .map 方法 ， 而 
是 迭代 futures.as_completed 函数 返回 的 结果 。 






































17.5 “显示 下 载 进 度 并 处 理 错误 


前 面 说 过 ，17.1 节 中 的 几 个 脚本 没有 处 理 错误 ， 这 样 做 是 为 了 便于 阅读 和 比较 三 种 方案 
《 依 序 、 多 线程 和 异步 ) 的 结构 。 


为 了 处 理 各 种 错误 ， 我 创建 了 flags2 系列 示例 。 

















flags2_common.py 


这 个 模块 中 包含 所 有 flags2 示例 通用 的 函数 和 设置 ， 例 如 main 函数 ， 负 责 解析 命 
令 行 参数 、 计 时 和 报告 结果 。 这 个 脚本 中 的 代码 其 实 是 提供 支持 的 ， 与 本 章 的 话题 没有 直 
接 关 系 ， 因 此 我 把 源码 放 在 附录 A 里 的 示例 A-10 中 。 

















flags2 sequential.py 


能 正确 处 理 错误 ， 以 及 显示 进度 条 的 HTTP 依 序 下 载 客户 端 。flags2 threadpool.py 脚 
本 会 用 到 这 个 模块 里 的 download_one 函数 。 




















flags2 threadpool.py 








基于 futures .ThreadPoolExecutor 类 实现 的 HTTP 并 发 客户 端 ， 演 示 如 何 处 理 错 
误 ， 以 及 集成 进度 条 。 


flags2_asyncio.py 


与 前 一 个 脚本 的 作用 相同 ， 不 过 使 用 asyncio 和 aiohttp 实现 。 这 个 脚本 在 第 18 
章 的 18.4 节 中 分 析 。 








Be 测试 并 发 客户 端 时 要 小 心 


在 公开 的 HTTP 服务 器 上 测试 HTTP 并 发 客户 端 时 要 小 心 ， 因 为 每 秒 可 能 会 发 起 很 多 
请 求 ， 这 相当 于 是 拒绝 服务 (DoS) 攻击 。 我 们 不 想 攻 击 任何 人 ， 只 是 在 学 习 如 何 开 
发 高 性 能 的 客户 端 。 访 问 公 开 的 服务 器 时 一 定 要 管 好 自己 的 客户 端 。 做 高 并 发 试验 
时 ， 应 该 在 本 地 架 nU: HTTP 服务 器 供 测试 。 本 书 代码 仓库 中 的 17-futures/countries/ H 
录 里 有 个 README. rst 文件 Chttps://github.conyfluentpython/example- 
code/blob/master/17-futures/countries/README.rst) ， 那 里 有 架设 说 明 。 






































flags2 系列 示例 最 明显 的 特色 是 ， 有 使 用 TQDM 包 Chttps://github.com/noamraph/tqdm) 
实现 的 文本 动画 进度 条 。 我 在 YouTube 上 发 布 了 一 个 108 秒 的 视频 

Chttps://www.youtube.com/watch?v=MB8Z6StAI514) ， 展 示 了 这 个 进度 条 ， 还 对 比 了 三 个 
flags 脚本 的 下 载 速 度 。 在 那个 视频 中 ， 我 先 运行 依 序 下 载 的 脚本 ， 不 过 32 秒 后 中 断 
了 ， 因 为 那个 脚本 要 用 5 分 多 钟 访问 676 个 URL， 下 载 194 面 国旗 ;， 然 后， 我 分 别 运 行 
多 线程 和 asyncio 版 三 次 ， 每 次 都 在 6 秒 之 内 〔( 即 快 了 60 多 倍 ) 完成 任务 。 图 17-1 中 
有 两 个 截图 ， 分 别 是 flags2_threadpool.py 脚本 运行 中 和 运行 结束 后 。 





























图 17-1: (左上 ) flags2_ threadpool.py 运行 中 ， 显 示 着 tgdm 包 生成 的 进度 条 ; A 
下 ) 同一 个 终端 窗口 ， 脚 本 运行 完毕 后 


TQDM 包 特 别 易 于 使 用 ， 项 目的 README.md 文件 

Chttps://github. rora/noamraplv tad blob/masten/README.md) 中 有 个 GIF 动画 ， 演 示 了 最 
West aie 。 安 装 tqdm 包 之 后 ，8 在 Python 控制 台中 输入 下 述 代码 ， 会 在 注释 那里 看 到 
进度 条 动画 : 






































8 可 以 使 用 pip install tqdm 命令 安装 tqdm 包 。 一 一 编者 注 














>>> import time 

>>> from tqdm import tqdm 

>>> for i in tqdm(range(10@@)): 
a time.sleep(.61) 



































>>> # -> 进度 条 会 出 现在 这 里 <- 


























除了 这 个 灵巧 的 效果 之 外 ，tqdm 函数 的 实现 方式 也 很 有 趣 : 能 处 理 任何 可 和 迭代 的 对 象 ， 
生成 一 个 迭代 器 ， 使 用 这 个 迭代 器 时 ， 显 示 进 度 条 和 完成 全 部 从 代 预计 的 剩余 时 间 。 为 了 
计算 预计 剩余 时 间 ， slo 函数 要 获取 一 个 能 使 用 len 函数 确定 大 小 的 可 迭代 对 象 ， 或 者 
在 第 二 个 参数 中 指定 预期 的 元 素数 量 。 借 助 在 flags2 系列 示例 中 集成 TQDM， 我 们 可 以 
深入 了 解 这 几 个 脚本 的 运作 方式 ， 因为 我 们 必须 使 用 futures .as_completed 函数 
Chttps://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.as_completed) 和 
asyncio.as_completed 函数 Chitps://docs.python.org/3/library/asyncio- 
task.html#asyncio.as_ completed) ， 这 样 tqdm 函数 才能 在 每 个 期 物 运行 结束 后 更 新 进度 。 


flags2 系列 示例 的 另 一 个 特色 是 ， 提 供 了 命令 行 接口 。 三 个 脚本 接受 的 选项 相同 ， 运 行 
任意 一 个 脚本 时 指定 -h 选项 就 能 看 到 所 有 选项 。 示 例 17-8 显示 的 是 帮助 文本 。 


示例 17-8 flags2 系列 脚本 的 帮助 界面 



















































































$ python3 flags2 threadpool.py -h 
usage: flags2 threadpool.py [-h] [-a] [-e] [-1 N] [-m CONCURRENT] [-s LABEL] 


[-v] 
[cc [cc ...]] 


Download flags for country codes. Default: top 2@ countries by population. 


positional arguments: 
CC country code or 1st letter (eg. B for BA...BZ) 


optional arguments: 


-h, --help show this help message and exit 

-a, --all get all available flags (AD to ZW) 

-e, --every get flags for every possible code (AA...ZZ) 
-1 N, --limit N limit to N first codes 


-m CONCURRENT, --max_req CONCURRENT 
maximum concurrent requests (default=30) 

-s LABEL, --server LABEL 
Server to hit; one of DELAY, ERROR, LOCAL, REMOTE 
(default=LOCAL) 

-v, --verbose output detailed progress info 














所 有 选项 都 是 可 选 的 。 下 面 说 明 最 重要 的 选项 。 


不 能 忽略 的 选项 是 -s/--server: 用 于 选择 测试 时 使 用 的 HTTP 服务 器 和 基 URL。 这 个 
选项 的 值 可 以 设 为 下 述 4 个 字符 串 〈 不 区 分 大 小 写 ) ， 用 于 确定 脚本 从 哪里 下 载 国 旗 。 


LOCAL 

















使 用 http://localhost:8001/flags; 这 是 默认 值 。 你 应 该 配置 一 个 本 地 HTTP 服 
务 器 ， 响 应 8001 端口 的 请 求 。 我 测试 时 使 用 Nginx。 本 章 示 例 代 码 中 的 README.rst 文件 
Chttps://github.com/fluentpython/example-code/blob/master/17-futures/countries/README.rst) 

说 明了 如 何 安装 和 配置 Nginx。 


REMOTE 








使 用 http://flupy.org/data/flags; 这 是 我 搭建 的 公开 网 站 ， 托 管 在 一 个 共享 
服务 器 中 。 请 不 要 使 用 太 多 并 发 请 求 访问 这 个 网 站 。flupy .org 域名 由 Cloudflare 
CDN (http://www.cloudflare.com/〉 的 一 个 免费 账户 管理 ， 因 此 第 一 次 下 载 时 会 发 现 很 
慢 ， 不 过 一 旦 CDN 有 了 缓存 ， 速 度 就 会 变 快 。” 


9 测试 这 些 脚 本 时 ， 我 向 那个 廉价 的 虚拟 主机 发 起 了 一 些 并 发 请 求 ， 但 是 得 到 的 响应 是 “HTTP 503 errors 一 Service 
Temporarily Unavailable”。 后 来 我 配置 了 Cloudflare， 现 在 没有 这 个 错误 了 。 

































































DELAY 


使 用 http://localhost:88862/flags; 这 是 一 个 代理 ， 会 延迟 HTTP 响应 ， 监 听 的 
端口 是 8002。 我 在 本 地 的 Nginx 服务 器 前 加 上 了 Mozilla Vaurien， 以 此 引入 延迟 。 前 面 提 
到 的 那个 README.rst 文件 Chttps:// github. com/fluentpython/example-code/blob/master/17- 
futures/countries 人 README.rst) 中 有 运行 Vaurien 代理 的 说 明 。 























ERROR 

















使 用 http://localhost:8003/flags; 这 是 一 个 代理 ， 监 听 8003 端口 ， 引 入 了 
HTTP 错误 ， 并 延迟 响应 。 这 个 服务 器 使 用 的 Vaurien 配置 与 前 面 不 同 。 











Pes 仅 当 在 本 地 架设 HTTP 服务 器 ， 并 且 监 听 8001 端口 时 ， 才 能 使 用 LOCAL 选 
项 。DELAY 和 ERROR 选项 需要 代理 ， 分 别 监听 8002 和 8003 端口 。 在 GitHub 上 本 书 
的 代码 仓库 中 有 个 17-futures/countries/README.rst 文件 
Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/README. rst) ， 说 明了 如 何 配置 Nginx 和 Mozilla Vaurien， 以 实现 这 
些 选 项 的 要 求 。 


默认 情况 下 ， 各 个 flags2 脚本 会 使 用 默认 的 并 发 连接 数 〈 各 脚本 有 所 不 同 ) LOCAL 
服务 器 Chttp://localhost:8001/flags) 中 下 载 人 口 最 多 的 20 个 国家 的 国旗 。 示 例 17-9 是 全 
部 使 用 默认 值 运行 flags2_sequential.py 脚本 得 到 的 输出 。 


示例 17-9 全 部 使 用 默认 值 运行 lags2_ sequential.py 脚本 : LOCAL 服务 器 ， 人 口 最 多 
的 20 国 国旗 ，1 个 并 发 连接 





















































$ python3 flags2_sequential.py 

LOCAL site: http://localhost:8001/flags 
Searching for 26 flags: from BD to VN 

1 concurrent connection will be used. 
20 flags downloaded. 

Elapsed time: @.10s 

















我 们 可 以 使 用 多 种 不 同 的 方式 选择 下 载 哪些 国家 的 国旗 。 示 例 17-10 展示 如 何 下 载 国家 代 
码 以 字母 A、B 或 C 开头 的 所 有 国旗 。 


示例 17-10 运行 flags2_threadpool.py 脚本 ， 从 DELAY 服务 器 中 下 载 国家 代码 以 A、 
B 或 C 开头 的 所 有 国旗 








$ python3 flags2_threadpool.py -s DELAY a b c 
DELAY site: http://localhost:8002/flags 
Searching for 78 flags: from AA to CZ 

30 concurrent connections will be used. 

43 flags downloaded. 

35 not found. 

Elapsed time: 1.72s 











不 管 使 用 什么 方式 选择 国家 代码 ， 以 使 用 -1/--limit 选项 限制 。 示 
例 17-11 演示 如 何 发 起 100 个 请 求 ， 结 合 -a 和 -1 选项 下 载 100 面 国旗 。 


示例 17-11 运行 flags2_asyncio.py 脚本 ， 使 用 100 个 并 发 请 求 (-m 100) 从 ERROR 
服务 器 中 下 载 100 面 国旗 (-al 100) 


$ python3 flags2_asyncio.py -s ERROR -al 100 -m 100 


$ 














ERROR site: http://localhost:8003/flags 
Searching for 100 flags: from AD to LK 
10@ concurrent connections will be used. 
73 flags downloaded. 

27 errors. 

Elapsed time: 0.64s 








以 上 是 flags2 系列 示例 的 用 户 界面 。 下 面 分 析 实 现 方式 。 


17.5.1 flags2 系 列 示 例 处 理 错误 的 方式 


这 三 个 示例 在 负责 下 载 一 个 文件 的 函数 (download_one) 中 使 用 相同 的 策略 处 理 HTTP 
404 错误 〈 未 找到 ) 。 其 他 异常 则 向 上 冒 泡 ， 交 给 download_many 函数 处 理 。 


我 们 还 是 先 分 析 依 序 下 载 的 代码 ， 因 为 这 些 代 码 更 易于 理解 ， 而 且 使 用 线程 池 的 脚本 重用 
了 这 里 的 大 部 分 代码 。 示 例 17-12 列 出 的 是 flags2_sequential.py 和 flags2_threadpool.py 脚 
本 真正 用 于 下 载 的 函数 。 


示例 17-12 flags2_ sequential.py: 负责 下 载 的 基本 函数 ，flags2_threadpool.py 脚本 重 
用 了 这 两 个 函数 
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def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 
if resp.status_code != 200: @ 
resp.raise_for_status() 
return resp.content 


download_one(cc, base_url, verbose=False): 
try: 
image = get_flag(base_url, cc) 
except requests.exceptions.HTTPError as exc: @ 
res = exc.response 
if res.status_code == 404: 
status = HTTPStatus.not_found © 
msg = ‘not found' 
else: © 


raise 


de 


十 


else: 
save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: © 
print(cc, msg) 


return Result(status, cc) © 


























Q get_flag 函数 没有 处 理 错误 ， 当 HTTP 代码 不 是 200 0 时， 0 代用 


requests.Response.raise for_status 方法 抛 出 异常 。 











10HTTP 代码 200 表示 成 功 完成 HTTP 请 求 。 一 一 编者 注 
































© download_one 函数 捕获 requests.exceptions.HTTPError 异常 ， 特 别处 理 HTTP 
404 错误 .……. 





四 方法 是 ， 把 局 部 变量 status WA HTTPStatus.not_found; HTTPStatus 是 从 
flags2_common 模块 〈 见 示例 A-10) 中 导入 的 Enum 对 象 。 


O 重新 抛 出 其 他 HTTPError Hin; 这些 异常 会 向 上 冒 泡 ， 传 给 调用 方 。 


O 如 果 在 命令 行 中 设 定 了 -v/--verbose 选项 ， 显 示 国 家 代码 和 状态 消 四 ;这 融 是 详细 
模式 中 看 到 的 进度 信息 。 


Q download_one 函数 的 返回 值 是 一 个 namedtuple 一 Result， 其 中 有 个 status £ 
段 ， 其 值 是 HTTPStatus.not_found 或 HTTPStatus.ok。 












































示例 17-13 列 出 的 是 download_many 函数 的 依 序 下 载 版 。 代 码 虽 然 简单 ， 不 过 值得 分 析 
一 下 ， 以 便 后 面 与 并 发 版 对 比 。 我 们 要 关注 的 是 报告 进度 、 处 理 错 误 和 统计 下 载 数量 的 方 


式 。 





























示例 17-13 flags2_sequential.py: 实现 依 序 下 载 的 download_many 函数 





def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() @ 
cc_iter = sorted(cc_list) @ 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) © 
for cc in cc_iter: 
try: 
res = download one(cc, base_url, verbose) © 
except requests.exceptions.HTTPError as exc: © 
error_msg = ‘HTTP error {res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: @ 
error_msg = ‘Connection error’ 
else: O 
error_msg = '' 
status = res.status 


if error_msg: 
status = HTTPStatus.error © 
counter[status] += 1 四 
if verbose and error_msg: @ 
print('*** Error for {}: {}'.format(cc, error msg)) 


return counter @ 








@ 这 个 Counter 实例 用 于 统计 不 同 的 下 载 状 
Æ: HTTPStatus .ok、HTTPStatus.not_found 或 HTTPStatus .error。 


O 按 字 母 顺 序 传 入 的 国家 代码 列表 ， 保 存在 cc_iter 变量 中 。 





O 如 果 不 是 详细 模式 ， 把 cc_iter 传 给 tqdm 函数 ， 返 回 一 个 迭代 器 ， 产 出 cc_iter 中 
的 元 素 ， 还 会 显示 进度 条 动画 。 


@ 这 个 for 循环 迭代 cc_iter...... 
@...... 不 断 调 用 download_one 函数 ， 执 行 下 载 。 
O 处 理 get_flag 函数 抛 出 的 与 HTTP 有 关 的 且 download_one 函数 没有 处 理 的 异常 。 


@@ 处 理 其 他 与 网 络 有 关 的 异常 。 其 他 异常 会 中 止 这 个 脚本 ， 因 为 调用 download_many 函 
数 的 flags2_common.main 函数 中 没有 try/except 块 。 


O 如 果 没 有 异常 从 download one 函数 中 逃 出 ， 从 download_one 函数 返回 的 
namedtuple (HTTPStatus) 中 获取 status. 


O 如 果 有 错误 ， 把 局 部 变量 status 设 为 相应 的 状态 。 

图 以 HTTPStatus (一 个 Enum) 中 的 值 为 键 ， 增 加 计数 器 。 

@ 如 果 是 详细 模式 ， 而 且 有 错误 ， 显 示 带 有 当前 国家 代码 的 错误 消息 。 
四 返回 counter, LE main 函数 能 在 最 终 的 报告 中 显示 数量 。 
下 面 分 析 重 构 后 的 线程 池 示 例 

















































































































fags2 threadpool.py。 


17.5.2 ”使 用 futures.as_completed 函 数 


为 了 集成 TQDM 进度 条 ， 并 处 理 各 次 请 求 中 的 错误 ，flags2 threadpool.py 脚本 用 到 我 们 见 
过 的 futures .ThreadPoolExecutor 类 和 futures.as_ completed 函数 。 示 例 17-14 
是 flags2_threadpool.py 脚本 的 完整 代码 清单 。 这 个 脚本 只 实现 了 download_many 函数 ， 
其 他 函数 都 重用 flags2_common 和 flags2_sequential 模块 里 的 。 























示例 17-14 flags2_threadpool.py: 完整 的 代码 清单 





import collections 
from concurrent import futures 


import requests 
import tqdm © 


from flags2 common import main, HTTPStatus @ 
from flags2_sequential import download one © 


DEFAULT_CONCUR_REQ = 30 @ 
MAX_CONCUR_REQ = 1000 © 


def download_many(cc_list, base_url, verbose, concur_req): 
counter = collections.Counter() 
with futures. ThreadPoolExecutor(max_workers=concur_req) as executor: © 





to_do_map = {} @ 
for cc in sorted(cc_list): © 
future = executor. submit (download_one, 
cc, base_url, verbose) © 
to do map[future] = cc @ 
done_iter = futures.as_completed(to_do_map) @ 
if not verbose: 
done_iter = tqdm.tqdm(done_iter, total=len(cc_list)) @ 
for future in done_iter: © 
try: 
res = future.result() © 
except requests.exceptions.HTTPError as exc: © 
error_msg = 'HTTP {res.status_code} - {res.reason}' 
error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error’ 
else: 
error_msg = '' 
status = res.status 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
cc = to do map[future] © 
print('*** Error for {}: {}'.format(cc, error_msg)) 
return counter 


if _name == ' main_': 
main(download_many, DEFAULT CONCUR REQ, MAX_CONCUR_REQ) 








@ 导入 显示 进度 条 的 库 。 
@ 从 flags2_common 模块 中 导入 一 个 函数 和 一 个 Enum. 
© 重用 flags2_sequential 模块 〈 见 示例 17-12) 里 的 download_one 函数 。 


O 如 果 没 有 在 命令 行 中 指定 -m/- -max_req 选项 ， 使 用 这 个 值 作为 并 发 请 求 数 的 最 大 
值 ， 也 就 是 线程 池 的 大 小 ; 真实 的 数量 可 能 会 比 这 少 ， 例 如 下 载 的 国旗 数量 较 少 。 


全 不 管 要 下 载 多 少 国旗 ， 也 不 管 -m/--max_req 命令 行 选项 的 值 是 多 
少 ，MAX_CONCUR_REQ 会 限制 最 大 的 并 发 请 求 数 ， 这 是 一 项 安全 预防 措施 。 


@ JE max_workers 设 为 concur_req， 创 建 ThreadPoolExecutor 实例 ; main 函数 会 
把 下 面 这 三 个 值 中 最 小 的 那个 赋值 给 concur_req: MAX_CONCUR_REQ. cc_list 的 长 
度 、-m/--max_req 命令 行 选项 的 值 。 这 样 能 避免 创建 超过 所 需 的 线程 。 


O ZPERIA Future 实例 表示 一 次 下 载 ) 喘 对 到 相应 的 国家 代码 上 ， 在 处 再 
误 时 使 用 。 


O 按 字 和 母 顺序 迭代 国家 代码 列表 。 结 果 的 顺序 主要 由 HTTP 响应 的 时 间 长 短 决定 ， 不 
过 ， 如 果 线 程 池 的 大 小 〈 由 concur_req 设 定 ) EK len(cc_list) 小 得 多 ， 可 能 会 发 现 























































































































有 按 字母 顺序 批量 下 载 的 情况 。 


O 每 次 调用 executor .submit 方法 排 定 一 个 可 调用 对 象 的 执行 时 间 ， 然 后 返回 一 
Future 实例 。 第 一 个 参数 是 可 调用 的 对 象 ， 。 yet cree a) 


© 把 返回 的 future 和 国家 代码 存储 在 字典 中 。 
@ futures.as_ completed 函数 返回 一 个 迭代 器 ， 在 期 物 运行 结束 后 产 出 期 物 。 


@ 如 果 不 是 详细 模式 ， 把 as_completed 函数 返回 的 结果 传 给 tqdm 函数 ， 显 示 进 度 
条 ; 因为 done_iter 没有 len 函数 ， 所 以 我 们 必须 通过 total= 参数 告诉 tqdm 函数 预 
期 的 元 素数 量 ， 这 样 tqdm 才能 预计 剩余 的 工作 量 。 


O 迭代 运行 结束 后 的 期 物 。 


D 在 期 物 上 调用 result 方法 ， 要 么 返回 可 调用 对 象 的 返回 值 ， 要 么 抛 出 可 调用 的 对 象 
在 执行 过 程 中 捕获 的 异常 。 这 个 方法 可 能 会 阻塞 ， 等 待 确定 结果 ; 不 过 ， 在 这 个 示例 中 不 
会 阻塞 ， 因 为 ae completed 函数 只 返回 已 经 运行 结束 的 期 物 。 


@ 处 理 可 能 出 现 的 异常 ， 这 个 函数 余下 的 代码 与 依 序 下 载 版 download_many 函数 一 样 
〈 见 示例 7 13) ， 不 过 下 一 点 除外 。 


人 为 了 给 错误 消息 提供 上 下 文 ， 以 当前 的 future 为 键 ， 从 to_do_map 中 获取 国家 代 
码 。 在 依 序 下 载 版 中 无 须 这 么 做 ， 因 为 那 一 版 迭代 的 是 国家 代码 ， 所 以 知道 当前 国家 的 代 
码 ; 而 这 里 迭代 的 是 期 物 。 


17-14 用 到 了 一 个 对 futures.as_completed 函数 特别 有 用 的 惯用 法 : 构建 一 个 字 
典 ， 把 各 个 期 物 映射 到 其 他 数据 (期 物 运行 结束 后 可 能 有 用 ) 上 。 这 里 , 在 to_do_map 
中 ， ee 这 样 ， 尽 管 期 物 生成 的 结果 顺序 已 经 乱 
了 ， 依 然 便于 使 用 结果 做 后 续 处 理 。 


Python 线程 特别 适合 IO 密集 型 应 用 ，concurrent .futures 模块 大 大 简化 了 某 些 使 用 场 
景 下 Python 线程 的 用 法 。 我 们 对 concurrent .futures 模块 基本 用 法 的 介绍 到 此 结束 。 
下 面 讨论 不 适合 使 用 ThreadPoolExecutor 或 ProcessPoolExecutor 类 时 ， 有 哪些 蔡 

代 方 案 。 


17.53 ”线程 和 多 进程 的 蔡 代 方案 


Python É 0.9.8 版 (1993 年 ) 就 支持 线程 了 ，concurrent.futures 只 不 过 是 使 用 线程 的 
最 新 方式 。Python 3 废弃 了 原来 的 thread 模块 ， ART 高 级 的 threading 模块 
(https://docs.python.org/3/library/threading. html) > 1! 如果 

futures. ThreadPoolExecutor 类 对 茶 个 作业 来 说 不够 灵活 ， 可 能 要 使 用 threading 模 

块 中 的 组 件 (如 Thread、Lock、Semaphore 等 ) 自行 制定 方案 ， 比 如 说 使 用 queue 模 

ER Chttps://docs.python.org/3/library/queue.html) 创建 线程 安全 的 队列 ， 在 线程 之 间 传 递 数 

di. futures. ThreadPoolExecutor 类 已 经 封装 了 这 些 组 件 。 



















































































































































































Hthreading 模块 自 Python 1.5.1 (1998 年 ) 就 已 存在 ， 不 过 有 些 人 仍然 继续 使 用 旧 的 thread 模块 。Python 3 把 




















thread 模块 重 命名 为 thread， 以 此 强调 这 是 低层 实现 ， 不 应 该 在 应 用 代码 中 使 用 。 

















对 CPU 密集 型 工作 来 说 ， 要 启动 多 个 进程 ， 规 避 GIL。 创 建 多 个 进程 最 简单 的 方式 是 ， 
使 用 futures.ProcessPoolExecutor 类 。 不 过 和 前 面 一 样 ， 如 果 使 用 场景 较 复 杂 ， 需 
要 更 高 级 的 工具 。multiprocessing 模块 
(https://docs.python.org/3/library/multiprocessing.html〉 的 API 与 threading 模块 相仿 ， 不 
过 作业 交 给 多 个 进程 处 理 。 对 简单 的 程序 来 说 ， 可 以 用 multiprocessing 模块 代替 
threading 模块 ， 少 量 改动 即 可 。 不 过 ，multiprocessing 模块 还 能 解决 协作 进程 遇 到 
的 最 大 挑战 : 在 进程 之 间 传 递 数据 。 























17.6 ”本 章 小 结 


本 章 开 头 对 两 个 HITP 并 发 客户 端 和 一 个 依 序 下 载 的 客户 端 做 了 对 比 ， 结 果 是 并 发 版 比 依 
序 下 载 的 脚本 性 能 高 很 多 。 


分 析 过 使 用 concurrent.futures 实现 的 第 一 个 示例 后 ， 我 们 深入 探讨 了 期 物 对 象 ， 即 
concurrent.futures.Future 或 asyncio.Future 类 的 实例 ， 着 重 说 明了 二 者 的 共 后 
点 《区 别 在 第 18 章 详 述 ) 。 我 们 说 明了 如 何 使 用 Executor.submit(...) 方法 创建 期 
物 ， 以 及 如 何 使 用 CONCURRENT: futures.as_completed(.. . ) 函数 迭代 运行 结束 的 期 
物 。 


接 下 来 ， 我 们 分 析 了 为 什么 尽管 有 GL, Python 线程 仍然 适合 VO 密集 型 应 用 : 标准 库 中 
每 个 使 用 C 语言 编写 的 IO 函数 都 会 释放 GIL， 因 此 ， 当 某 个 线程 在 等 待 IO 时 ， Python 
调度 程序 会 切换 到 另 一 个 线程 。 然 后 ， 我 们 讨论 了 如 何 借助 
concurrent.futures.ProcessPoolExecutor 类 使 用 多 进程 ， 以 此 绕 开 GIL， 使 用 多 个 
CPU 核心 运行 加 密 算法 ， 并 通过 四 个 职 程 实现 一 倍 多 的 速度 提升 。 


在 随后 的 一 节 中 ， 我 们 深入 分 析 了 concurrent.futures.ThreadPoolExecutor 类 的 运 
作 方 式 。 为 了 说 明 问 题 ， 我 特意 举 了 一 个 示例 ， 创 建 几 个 任务 ， 但 是 休眠 几 秒 钟 ， 什 么 也 
不 做 ， 只 是 显示 带 有 时 间 长 的 状态 。 


接 下 来 ， 本 章 回 到 下 载 国 旗 的 示例 ， 增 加 了 进度 条 和 错误 处 理 代码 ， 并 且 进 一 步 探索 了 
future.as_completed 生成 器 函数 。 我 们 得 知 一 个 常见 的 做 法 : 把 期 物 存储 在 一 个 字典 
中 ， 提 交 期 物 时 把 期 物 与 相关 的 信息 联系 起 来 ; 这样 ，as_completed 迭代 器 产 出 期 物 
后 ， 束 可 以 使 用 那些 信息 。 


Ba, AE fai ey H 
All multiprocessing 模块 。 这 两 个 模块 代表 在 Python 中 使 用 线程 和 进程 的 传统 方式 。 



















































































17.7 ”延伸 阅读 


Brian Quinlan 是 concurrent.futures 包 的 贡献 者 ， 他 在 PyCon Australia 2010 上 所 做 

的 “The Future Is Soon!” Chttp://www.pyvideo.org/video/480/pyconau-20 1 0--the-future-is- 

soon) 演讲 对 这 个 包 做 了 介绍 。Quinlan 演讲 时 没 用 约 灯 片 ， 而 是 直接 在 Python 控制 台中 
输入 代码 ， 以 此 说 明 这 个 库 的 用 途 。 作 为 引子 ， 他 在 演讲 中 推荐 了 XKCD 漫画 家 和 程序 
员 Randall Munroe 制作 的 一 个 视频 ，Randall 在 这 个 视频 中 对 Google Maps 发 起 了 DoS 攻 
击 《〈 非 有 意 为 之 ) ， 绘 制 一 个 彩色 地 图 ， 显 示 他 驾车 绕 城 的 路 线 。 这 个 库 的 正式 介绍 文件 
是 “PEP 3148—futures—execute computations 

asynchronously” (https://www.python.org/dev/peps/pep-3148/) 。 在 这 个 PEP 中 ，Quinlan 写 
道 ，concurrent .futures 库 “ 受 Java 的 java.util.concurrent 包 影 响 很 大 ”。 

















Jan Palach 写 的 Parallel Programming with Python (Packt 出 版 社 ) 一 书 介绍 了 几 个 并 发 编 
程 的 工具 ， 包 括 concurrent.futures、threading fll multiprocessing 库 。 除 了 标 
准 库 之 外 ， 这 本 书 还 讨论 了 Celery (http://celery.readthedocs.org/en/latest/getting- 
started/introduction.html) 。 这 是 一 个 任务 队列 ， 用 于 把 工作 分 配给 多 个 线程 和 进程 ， 甚 至 
是 不 同 的 设备 。 在 Django 社区 中 ， 为 了 减轻 繁重 任务 的 负担 〈 例 如 ， 把 生成 PDF 的 工作 
交 给 其 他 进程 ， 防 止 HTTP 响应 延迟 生成 ) ，Celery 可 能 是 使 用 最 广泛 的 系统 。 


Beazley 与 Jones 的 著作 《Python Cookbook ($5 3 版 ) 中 文 版 》 有 多 个 使 用 
concurrent.futures 的 诀 穿 ， 首 先是 “11.12 理解 事件 驱动 型 VO”. “12.7 创建 线程 池 ?” 展 
示 了 一 个 简单 的 TCP 回 显 服务 器 , “12.8 实现 简单 的 并 行 编程 "提供 了 一 个 特别 实用 的 示 
Bil: 借助 ProcessPoolExecutor 实例 分 析 一 整个 日 录 中 使 用 gzip 压缩 的 Apache 日 志 
文件 。 这 本 书 的 第 12 章 对 线程 做 了 更 多 介绍 ， 特 别 值得 一 提 的 是 “12.10 定义 一 个 Actor 
任务 ”， 这 个 诀 罕 演 示 了 参与 者 模型 : 通过 传递 消息 协调 多 个 线程 的 可 行 方式 。 


Brett Slatkin 写 的 《Effective Python: 编写 高 质量 Python 代码 的 59 个 有 效 方法 》 一 书 中 有 
一 章 探 讨 了 并 发 的 多 个 话题 ， 包 括 : 协 程 ， 使 用 concurrent. futures 库 处 理 线程 和 进 
程 ， 不 使 用 ThreadPoolExecutor 类 ， 而 使 用 锁 和 队列 做 线程 编程 。 


Micha Gorelick 与 Ian Ozsvald 写 的 High Performance Python (O'Reilly 出 版 社 ) 和 Doug 
Hellmann 写 的 《Python 标准 库 》 都 涵盖 了 线程 和 进程 。 


知 想 了 解 不 使 用 线程 或 回调 的 现代 并 发 方式 ， 推 荐 阅读 Paul Butcher 写 的 《七 周 七 并 发 模 
4y. 12 我 走 欢 这 本 书 的 副标题 “When Threads Unravel” (线程 束手无策 之 时 ) 。 这 本 书 
的 第 1 章 简单 介绍 了 线程 和 锁 ， 后 面 的 六 章 探 讨 了 不 同 语言 〈 不 包括 Python, Ruby 和 
JavaScript) 为 并 发 编程 提供 的 现代 化 替代 方案 。 






































































































































了 2 该 书 已 由 人 民 邮 电 出 版 社 出 版 ， 书 号 :978-7-115-38606-9。 一 一 编者 注 


























如 果 对 GIL 感 兴趣 ， 请 先 阅 读 Python 文档 中 的 “Python Library and Extension FAQ” (“Can't 
we get rid of the Global Interpreter Lock?”, https://docs.python.org/3/faq/library.html#id18) 。 
Guido van Rossum 写 的 “It isn't Easy to Remove the 

GIL” Chttp://www.artima.com/weblogs/viewpost.jsp?thread=214235) 和 Jesse 

Noller (multiprocessing 包 的 贡献 者 ) 写 的 "Python Threads and the Global Interpreter 


Lock” Chttp://jessenoller.con/2009/02/01/python-threads-and-the-global-interpreter-lock/) 也 值 
得 一 读 。 此 外 ，David Beazley 在 “Understanding the Python 

GIL” Chttp://www.dabeaz.con/GIL/) 中 详细 探讨 了 GIL 的 内 部 运作 。 在 这 次 演讲 的 第 54 
张 幻 灯 片 中 Chttp://www.dabeaz.com/python/UnderstandingGIL.pdf) , Beazley 得 出 了 一 些 令 
人 担忧 的 结果 ， 例 如 ， 使 用 Python 3.2 GIL 算法 做 基准 测试 时 ， 他 发 现 处 理 时 间 

增加 了 20 倍 。 不 过 ，Beazley 似乎 使 用 一 个 空 的 while True: pass 循环 模拟 CPU 密集 

型 工作 ， 而 现实 中 不 会 这 样 做 。 在 Eels ie 交 的 缺陷 报告 中 ， 根 据 Antoine Pitrou (SCHL 

新 GIL RIANA) 的 评论 Chttp://bugs.python.org/issue7946#msg223110) ， 这 个 问题 与 工作 
负载 没有 太 大 关系 。 


1 感谢 Lucas Brunialti 把 这 个 演讲 的 链接 发 给 我 。 


























GIL 是 实际 存在 的 问题 ， 而 且 短 时 间 内 不 可 能 消失 ， 不 过 Jesse Noller 和 Richard Oudkerk 
开发 了 一 个 库 ， 能 让 CPU 密集 型 应 用 轻松 地 绕 开 这 个 问题 -multiprocessing 包 。 这 
个 包 在 多 个 进香 中 模 threading 模块 的 API， 而 且 支持 基础 设施 的 锁 、 队 列 、 管 道 、 
共享 内 存 ， 等 等 。 这 个 包 由 “PEP 371 一 Addition ofthe multiprocessing package to the standard 
library” Gee en org/dev/peps/pep- 0371/) 引入 。 这 个 包 的 官方 文档 是 个 93KB 
的 rst 文件 “大约 63 页 ) ， 是 Python 标准 库 文档 中 最 长 的 一 章 。 多 进程 是 


concurrent. futures.ProcessPoolExecutor 类 的 基础 。 


对 于 CPU 密集 型 和 数据 密集 型 并 行 处 理 ， 现 在 有 个 新 工具 可 用 一 一 分 布 式 计算 引擎 

Apache Spark Chttps://spark.apache.org/) o Spark 在 大 数据 领域 发 展 势 头 强 劲 ， 提 供 了 友好 

的 Python API， 支 持 把 Python 对 象 当 作 数据 ， 如 示例 页 面 所 示 
Chttps://spark.apache.org/examples.html) 。 



























































Joao S. O. Bueno 开发 的 lelo Æ 〈https:/pypi.python.org/pypilelo) 和 Nat Pryce 开发 的 
De parallelize 库 (https://github.con/npryce/python-parallelize) 简洁 且 十 分 易于 使 
用 ， 它 们 的 作用 是 使 用 多 个 进程 处 理 并 行 任务 。1lelo 包 定 义 了 一 个 @parallel 装饰 器 ， 
可 以 应 用 到 任何 函数 上 ， 把 函数 变 成 非 阻塞 : 调用 被 装饰 的 函数 时 ， 函 数 在 一 个 新 进程 中 
执行 。 Nat Pryce 开发 的 python-parallelize 包 提供 了 一 个 parallelize 生成 器 ， 能 
把 for 循环 分 配给 多 个 CPU 执行 。 这 两 个 包 在 内 部 都 使 用 了 multiprocessing 模块 。 



































杂谈 
远离 线程 
并 发 是 计算 机 科学 中 最 难 的 概念 之 一 (通常 最 好 别 去 招 车 它 ) 。14 





David Beazley 
Python 教练 和 科学 狂人 


上 面 引 自 David Beazley 的 话 与 本 章 开 头 引 自 Michele Simionato 的 话 明 显 矛 盾 ， 但 我 
都 同意 。 在 大 学 学 过 一 门 并 发 课程 之 后 〈 那 门 课 把 “并 发 编程 ”与 管理 线程 和 锁 划 上 等 
号 ) ， 我 得 出 一 个 结论 ， 我 不 该 自己 管理 线程 和 锁 ， 而 应 该 管理 内 存 分 配 和 释放 。 线 
他 们 有 这 种 爱好 ， 也 有 时 间 去 管理 〈 但 愿 如 
此 ) 。 











































































































因此 我 觉得 Concurrent. futures 包 很 棒 ， 它 把 线程 、 进 程 和 队列 视 作 服务 的 基础 
设施 ， 不 用 自己 动手 直接 处 理 。 当 然 ， 这 个 包 针 对 的 是 简单 的 作业 ， 也 就 是 所 谓 
的 “高 度 并 行 ? 问 题 (https://en.wikipedia.org/wiki/Embarrassingly parallel) 。 可 是 ， 正 
如 本 章 开 头 Simionato 所 说 的 那样 ， 编 写 应 用 (而 非 操 作 系 统 或 数据 库 服务 器 〉 时 ， 
过 到 的 大 部 分 并 发 问题 都 属于 这 一 种 。 


对 于 并 发 程度 不 高 的 问题 来 说 ， 线 程 和 锁 也 不 是 解决 之 道 。 在 操作 系统 层面 ， 线 程 永 
远 不 会 消失 ， 不过， 过 去 七 年 我 觉得 让 人 眼前 一 亮 的 编程 语言 (包括 Go, Elixir 和 
Clojure) 都 对 并 发 做 了 更 好 、 更 高 层 的 抽象 ， 正 如 《七 周 七 并 发 模型 》 一 书 所 述 。 
Erlang (SE Elixir 的 语言 ) 是 典型 示例 ， 设 计 这 门 语言 时 彻底 考虑 到 了 并 发 。 我 对 
这 门 语言 不 感 兴趣 的 原因 很 简单 一 一 句法 丑陋 。 我 被 Python 的 句法 宠 坏 了 。 


José Valim 是 著名 的 Ruby on Rails 核心 贡献 者 ， 他 设计 的 Elixir 提供 了 友好 而 现代 的 
人 句法。 与 Lisp 和 Clojure 一 样 ，Elixir 也 实现 了 句法 宏 。 这 是 把 双 为 剑 。 使 用 句法 宏 
能 实现 强大 的 DSL， 可 是 衍生 语言 多 起 来 之 后 ， 代 码 基 会 出 现 兼容 问题 ， 社 区 会 分 
裂 。 大 量 涌现 的 宏 导 致 Lisp 没落 ， 因 为 各 种 Lisp 实现 都 使 用 独特 难 懂 的 方言 。 标 准 
化 的 Common Lisp 则 开始 复苏 。 我 希望 José Valim 能 引领 Elixir 社区 ， 不 要 重 蹈 履 
DE 


与 Elixir 类 似 ，Go 也 是 一 门 充满 新 意 的 现代 语言 。 可 是 ， 与 Elixir 相 比 ， 某 些 方面 
有 点 保守 。Go 不 支持 宏 ， 句 法 比 Python 简单 。Go 也 不 支持 继承 和 运算 符 重 载 ， 而 
且 提 供 的 元 编程 支持 没有 Python 多 。 这 些 限制 被 认为 是 Go 语言 的 特点 ， 因 为 行为 和 
性 能 更 可 预料 。 这 对 高 并 发 来 说 是 好 事 ， 而 Go 的 重要 使 命 是 取代 CH. Java 和 
Python。 


HAR Elixir 和 Go 在 高 并 发 领域 是 直接 的 竞争 者 ， 但 是 设计 原理 的 不 同 则 吸引 了 不 同 
的 用 户 群 。 这 两 门 语 言 都 可 能 蓬勃 发 展 。 可 是 纵 观 编程 语言 的 历史 ， 保 宁 的 语言 更 能 
吸引 程序 员 。 我 希望 自己 能 精通 Go 和 Elixir. 


KF GIL 


GIL fal {4 Y CPython 解释 器 和 C 语言 扩展 的 实现 。 得 益 于 GIL, Python 有 很 多 C 语言 
扩展 一 一 这 绝对 是 如 今 Python 如 此 受 欢 迎 的 主要 原因 之 一 。 


多 年 以 来 ， 我 一 直觉 得 GIL 导致 Python 线程 几乎 没有 用 武之 地 ， 只 能 开发 一 些 玩 具 
应 用 。 直 到 发 现 标准 库 中 每 一 个 阻塞 型 TO 函数 都 会 释放 GIL 之后， 我 才 意 识 到 
Python 线程 特别 适合 在 VO 密集 型 系统 〈 鉴 于 我 的 工作 经 验 ， 客 户 经 党 付费 让 我 开发 
这 种 应 用 ) 中 使 用 。 


竞争 对 手 对 并 发 的 支持 


MRI (推荐 使 用 的 Ruby 实现 ) 也 有 GIL， 因 此 ，Ruby 线程 与 Python 线程 受到 同样 的 
限制 。 相 比 之 下 ，JavaScript 解释 器 则 根本 不 支持 用 户 层级 的 线程 。 在 JavaScript 

中 ， 只 能 通过 回调 式 异 步 编程 实现 并 发 。 我 提 到 这 些 是 因为 ，Ruby 和 JavaScript 是 最 
能 直接 与 Python 竞争 的 通用 动态 编程 语言 。 


在 深 说 并 发 的 这 一 批 新 语言 中 ，Go 和 Elixir 或 许 是 最 能 蚕食 Python 的 语言 。 不 过 ， 
现在 有 asyncio 了。 既然 这 么 多 人 相信 纯粹 使 用 回调 的 Node.js 平台 可 以 做 并 发 编 


















































































































































TE, IBA asyncio 生态 系统 成 熟 后 ，Python 赢 回 这 些 人 能 有 多 难 呢 ? 不 过 ， 这 是 下 
一 章 “ 杂 谈 ” 的 话题 。 


| 44 摘自 PyCon 2009 教程 “A Curious Course on Coroutines and Concurrency”(http//www.dabeaz.com/coroutines/) 的 第 9 张 
| ZIIT Hr 








第 18 章 使 用 asyncio 包 处 理 并 发 


并 发 是 指 一 次 处 理 多 件 事 。 
并 行 是 指 一 次 做 多 件 事 。 
二 者 不 同 ， 但 是 有 联系 。 

个 关于 结构 ， 一 个 关于 执行 

并 发 朋 于 制定 作案 ， 朋 来 解决 可 能 (但 未 必 ) 并 行 的 问题 。1 






































Rob Pike 
Go 语言 的 创造 者 之 一 





1 摘自 “Concurrency Is Not Parallelism (It's Better)” Chttp://concur.rspace.googlecode.con/hg/talk/concur.html#slide-5) 演讲 的 
第 5 张 约 灯 片 。 














Imre Simon 教授 ? 说 过 ， 科 学 界 有 两 个 重要 过 错 : 使 用 不 同 的 词 表 示 相 同 的 事物 ， 以 及 使 
用 同一 个 词 表示 不 同 的 事物 。 0 会 发 现 “ 并 发 ”和 “并 
行 * 有 不 同 的 定义 。 我 将 采用 上 述 引 文中 Rob Pike 的 非 正 式 定义 。 






































"Imre Simon (1943—2009) 是 巴西 的 计算 机 科学 先驱 ， 对 自动 机 理论 (Automata Theory) 有 杰出 的 贡献 ， 开 创 了 热带 
数学 (Tropical Mathematics) 这 一 领域 。 他 还 是 自由 软件 和 自由 文化 的 拥护 者 。 我 有 幸 曾 与 他 一 起 学 习 、 工 作 和 相 
处 。 







































































真正 的 并 行 需要 多 个 核心 。 现 代 的 笔记 本 电脑 有 4 个 CPU 核心 ， 但 是 通常 不 经 意 间 就 有 
超过 100 个 进程 同时 运行 。 因此， 实际 上 大 多 数 过 程 都 是 并 发 处 理 的 ， 而 不 是 并 行 处 理 。 
计算 机 始终 运行 着 100 多 个 进程 ， 确 保 每 个 进程 都 有 机 会 取得 进展 ， 不 过 CPU AA 
做 的 事情 不 能 超过 四 件 。 十 年 前 使 用 的 设备 也 能 并 发 处 理 100 个 进程 ， 不 过 都 在 同一 个 核 
心里 。 鉴 于 此 ，Rob Pike 才 把 那 次 演讲 取 名 为 "Concurrency Is Not Parallelism (It's 
Better)”[“ 并 发 不 是 并 行 〈 并 发 更 好 ) ”]。 


本 章 介 绍 asyncio 包 ， 这 个 包 使 用 事件 循环 驱动 的 协 程 实现 并 发 。 这 是 Python 中 最 大 也 
心 壮志 的 库 之 一 。Guido van Rossum 在 Python 仓库 之 外 开发 asyncio 包 ， 把 这 
个 项 目 的 代号 命名 为 “Tulip”( 和 郁金香 ) 。 因 此 ， 在 网 上 搜索 这 方面 的 资料 时 ， 会 经 常 看 到 
这 种 花 的 名 称 。 例 如 ， 这 个 项 目的 主要 讨论 组 仍 叫 python- 

tulip Chttps://groups.google.com/forum/#!forum/python-tulip) 。 


Python 3.4 把 Tulip 添加 到 标准 库 中 时 ， 把 它 重 命名 为 asyncio。 这 个 包 也 兼容 Python 
3.3， 在 PyPI 中 可 以 通过 新 的 官方 名 称 找到 

(https://pypi.python.org/pypi/asyncio) 。asyncio 大 量 使 用 yield from 表达 式 ， 因 此 与 
Python 旧版 不 兼容 。 










































































A Trollius WMH (H UZMA, http://trollius.readthedocs.org/) 移植 了 
asyncio, }E yield from 蔡 换 成 yield 和 精巧 的 回调 (From 和 Return) , LAE 
支持 Python 2.6 及 以 上 版 本 。yield from ... 表达 式 变 成 了 yield From(...); 
如 果 协 程 需 要 返回 结果 ， 那 么 要 把 return result 替换 成 raise 

















Return(result). Trollius 由 Victor Stinner 主导 ， 他 也 是 asyncio 包 的 核心 开发 


者 。Victor 人 很 好 ， 在 本 书 付 梓 之 前 
本 章 讨论 以 下 话题 ; 


同意 审核 本 章 。 


。 对比 一 个 简单 的 多 线程 程序 和 对 应 的 asyncio 版 ， 说 明 多 线程 和 异步 任务 之 间 的 关 


ZAIN 


e asyncio. Future 类 与 concurre 


nt.futures.Future 类 之 间 的 区 别 


。 第 17 章 中 下 载 国旗 那些 示例 的 异步 版 

















。 气 弃 线程 或 进程 ， 如 何 使 用 异步 编程 管理 网 络 应 用 中 的 高 并 发 
。 在 异步 编程 中 ， 与 回调 相 比 ， 协 程 显著 提升 性 能 的 方式 












































。 如何 把 阻塞 的 操作 交 给 线程 池 处 到 


E， 从 而 避免 阻塞 事件 循环 




















。 使 用 asyncio 编写 服务 器 ， 重 新 审视 Web 应 用 对 高 并 发 的 处 理 方式 
。 为 什么 asyncio 已 经 准备 好 对 Python 生态 系统 产生 重大 影响 
首先 ， 本 章 通过 简单 的 示例 来 对 比 threading 模块 和 asyncio 包 。 











18.1 线程 与 协 程 对 比 

有 一 次 讨论 线程 和 GIL 时 ，Michele Simionato 发 布 了 一 个 简单 但 有 趣 的 示例 
Chttps://mail.python.org/pipermail/python-list/2009-February/525280.html) : 在 长 时 间 计 算 的 
过 程 中 ， 使 用 multiprocessing 包 在 控制 台中 显示 一 个 由 ASCII 字符 "|/-\" 构成 的 动 
画 旋转 指针 。 

我 改写 了 Simionato 的 示例 ， 一 个 借 由 threading 模块 使 用 线程 实现 ， 一 个 借 由 
asyncio 包 使 用 协 程 实现 。 我 这 么 做 是 为 了 让 你 对 比 两 种 实现 ， 理 解 如 何不 使 用 线程 来 
实现 并 发 行为 。 
示例 18-1 和 示例 18-2 的 输出 是 动态 的 ， 因 此 你 一 定 要 运行 这 两 个 脚本 ， 看 看 结果 如 何 。 
如 果 你 在 坐 地 铁 (或 者 在 某 个 没有 Wi-Fi 连接 的 地 方 ) ， 可 以 看 图 18-1， 想 象 单 

词 “thinking”* 之 前 的 \ 线 是 旋转 的 。 
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2. Python 








图 18-1: spinner_thread.py 和 spinner_asyncio.py 两 个 脚本 的 输出 类 似 : 旋转 指针 对 象 
的 字符 串 表 示 形 式 和 文本 “Answer: 42”。 在 这 个 截图 中 ，spinner asyncio.py 脚本 仍 在 
运行 中 ， 旋 转 指针 显示 的 是 thinking!” 消 息 ; 脚本 运行 结束 后 ， 那 一 行 会 蔡 换 

成 “Answer: 42” 














首先 ， 分 析 spinner thread.py 脚本 《〈 见 示例 18-1) 。 
示例 18-1 spinner_thread.py: 通过 线程 以 动画 形式 显示 文本 式 旋转 指针 





import threading 
import itertools 
import time 
import sys 


class Signal: © 
go = True 





def spin(msg, signal): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): © 


status = char + ' ' + msg 
write(status) 
flush() 


write('\x@8' * len(status)) @ 
time.sleep(.1) 
if not signal.go: © 
break 
write(' ' * len(status) + '\x@8' * len(status)) © 


def slow _ function(): @ 
# 假装 等 待 T/0 一 段 时 间 
time.sleep(3) © 
return 42 


def supervisor(): © 
signal = Signal() 
spinner = threading. Thread(target=spin, 
args=('thinking!', signal)) 
print('spinner object:', spinner) @ 
spinner.start() @ 
result = slow_function() @ 
signal.go = False © 
spinner.join() © 
return result 


def main(): 
result = supervisor() © 
print('Answer:', result) 


if _name == ' main_': 
main() 




















@ 这 个 类 定义 一 个 简单 的 可 变 对 象 ， 其 中 有 个 go 属性 ， 用 于 从 外 部 控制 线程 。 
O 这 个 函数 会 在 单独 的 线程 中 运行 。signal 参数 是 前 面 定 义 的 Signal 类 的 实例 。 


O 这 其 实 是 个 无 限 循环 ， 因为 itertools.cycle 函数 会 从 指定 的 序列 中 反复 不 断 地 生成 
元 系 。 


O 这 是 显示 文本 式 动 画 的 诀 穿 所 在 : 使 用 退 格 符 〈\x88) 把 光标 移 回 来 。 
O WA go 属性 的 值 不 是 True 了 ， 那 就 退出 循环 。 

@ 使 用 空格 清除 状态 消息 ， 把 光标 移 回 开头 。 

O 假设 这 是 耗 时 的 计算 。 
































© 调用 sleep 函数 会 阻塞 主线 程 ， 不 过 一 定 要 这 么 做 ， 以 便 释 放 GIL， 创 建 从 属 线程 。 
O 这 个 函数 设置 从 属 线程 ， 显 示 线 程 对 象 ， 运 行 耗 时 的 计算 ， 最 后 杀 死 线程 。 

O 显示 从 属 线程 对 象 。 输 出 类 似 于 <Thread(Thread-1，initial)>。 

D 启动 从 属 线程 。 

@ 运行 slow_function 函数 ， 阻 塞 主线 程 。 同 时 ， 从 属 线程 以 动画 形式 显示 旋转 指针 
O AE signal 的 状态 ， 这 会 终止 spin 函数 中 的 那个 for 循环 。 











等 待 spinner 线程 结束 。 
® i277 supervisor 函数 。 


VER, Python 没有 提供 终止 线程 的 API， 这 是 有 意 为 之 的 。 若 想 关 闭 线程 ， 必 须 给 线程 发 
送 消息 。 这 里 ， 我 使 用 的 是 signal.go 属性 : 在 主线 程 中 把 它 设 为 False spinner 
线程 最 终 会 注意 到 ， 然后 干净 地 退出 


下 面 来 看 如 何 使 用 @asyncio.coroutine 装饰 器 替代 线程 ， 实 现 相 同 的 行为 。 











Aa 第 16 章 的 小 结 说 过 ，asyncio 包 使 用 的 “ 协 程 ” 是 较 严 格 的 定义 。 适 合 
asyncio API 的 协 程 在 定义 体 中 必须 使 用 yield from， 而 不 能 使 用 yield. UL, 
适合 asyncio 的 协 程 要 由 调用 方 驱动 ， 并 由 调用 方 通过 yield from 调用 ; 或 者 把 
协 程 传 给 asyncio 包 中 的 某 个 函数 ， 例 如 asyncio.async(...) 和 本 章 要 介绍 的 其 
他 函数 ， 从 而 驱动 协 程 。 最 后 ，@asyncio.coroutine 装饰 器 应 该 应 用 在 协 程 上 ， 
如 下 述 示例 所 示 。 


我 们 来 分 析 示 例 18-2。 


示例 18-2 spinner_asyncio.py: 通过 协 程 以 动画 形式 显示 文本 式 旋转 指针 














import asyncio 
import itertools 
import sys 


@asyncio.coroutine © 

def spin(msg): @ 
write, flush = sys.stdout.write, sys.stdout.flush 
for char in itertools.cycle('|/-\\'): 


status = char + ' ' + msg 
write(status ) 

flush() 

write('\x@8' * len(status) ) 
try: 


yield from asyncio.sleep(.1) © 
except asyncio.CancelledError: @ 
break 





write(' ' * len(status) + '\x@8' * len(status) ) 


@asyncio.coroutine 

def slow _function(): © 
# 假装 等 待 I/0 一 段 时 间 
yield from asyncio.sleep(3) © 
return 42 


@asyncio.coroutine 

def supervisor(): @ 
spinner = asyncio.async(spin('thinking!')) © 
print('spinner object:', spinner) © 
result = yield from slow _ function() 四 
spinner.cancel() @ 
return result 


def main(): 
loop = asyncio.get_event_loop() @ 
result = loop.run_until_complete(supervisor()) © 
loop.close() 
print('Answer:', result) 


if _name == "main _ 
main() 
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@ 打算 交 给 asyncio 处 理 的 协 程 要 使 用 @asyncio.coroutine 装饰 。 这 不 是 强 秆 
但 是 强烈 建议 这 么 做 。 原 因 在 本 列表 后 面 。 


四 这 里 不 需要 示例 18-1 中 spin 函数 中 用 来 关闭 线程 的 signal 参数 。 


© 使 用 yield from asyncio.sleep(.1) 代替 time.sleep(.1)， 这 样 的 休眠 不 会 阻 
塞 事件 循环 。 


O 如 果 spin 函数 苏醒 后 抛 出 asyncio.CancelledError 异常 ， 其 原因 是 发 出 了 取消 请 
求 ， 因 此 退出 循环 。 


全 现在 ，slow_function 函数 是 协 程 ， 在 用 休眠 假装 进行 VO 操作 时 ， 使 用 yield 
From 继续 执行 事件 循环 。 


@ yield from asyncio.sleep(3) 表达 式 把 控制 权 交 给 主 循环 ， 在 休眠 结束 后 恢复 这 
个 协 程 。 


@ BIE, supervisor 函数 也 是 协 程 ， 因 此 可 以 使 用 yield from 驱动 slow_function 


Q asyncio.async(...) 函数 排 定 spin 协 程 的 运行 时 间 ， 使 用 一 个 Task 对 象 包装 
spin 协 程 ， 并 立即 返回 
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© 显示 Task 对 象 。 输 出 类 似 于 <Task pending coro=<spin() running at 
spinner asyncio.py:12>>. 


O 驱动 slow_function() 函数 。 结 束 后 ， 获 取 返 回 值 。 同 时 ， 事 件 循环 继续 运行 ， 因 为 
slow function 函数 最 后 使 用 yield from asyncio.sleep(3) 表达 式 把 控制 权 交 回 给 
了 主 循环 。 

O Task 对 象 可 以 取消 ; 取消 后 会 在 协 程 当前 暂停 的 yield 处 抛 出 
asyncio.CancelledError 异常 。 协 程 可 以 捕获 这 个 异常 ， 也 可 以 延 人 运 取 消 ， 甚 至 拒绝 
取消 。 

O 获取 事件 循环 的 引用 。 

® 驱动 supervisor 协 程 ， 让 它 运行 完毕 ， 这 个 协 程 的 返回 值 是 这 次 调用 的 返回 值 。 









































Bes 除非 想 阻 塞 主线 程 ， 从 而 冻结 事件 循环 或 整个 应 用 ， 否 则 不 要 在 asyncio 协 
程 中 使 用 time.sleep(...)。 如 果 协 程 需要 在 一 段 时 间 内 什么 也 不 做 ， 应 该 使 用 
yield from asyncio.sleep(DELAY). 




















使 用 @asyncio. coroutine 装饰 器 不 是 强制 要 求 ， 但 是 强烈 建议 这 么 做 ， 因 为 这 样 能 在 
一 众 普通 的 函数 中 把 协 程 凸 显 出 来 ， 也 有 助 于 调试 : 如 果 还 没 从 中 产 出 值 ， 协 程 就 被 垃圾 
回收 了 (意味 着 有 操作 未 完成 ， 因 此 有 可 能 是 个 缺陷 ) ， 那 就 可 以 发 出 警告 。 这 个 装饰 器 
不 会 预 激 协 程 。 


注意 ，spinner thread.py 和 spinner asyncio.py 两 个 脚本 的 代码 行 数 差不多 。supervisor 
函数 是 这 两 个 示例 的 核心 。 下 面 详 细 对 比 二 者 。 示 例 18-3 只 列 出 了 线程 版 示例 中 的 


supervisor 函数 。 

















示例 18-3 spinner thread.py: 线程 版 supervisor 函数 





def supervisor(): 
signal = Signal() 
spinner = threading. Thread(target=spin, 
args=('thinking!', signal)) 
print('spinner object:', spinner) 
spinner.start() 
result = slow_function() 
signal.go = False 
spinner. join() 
return result 








为 了 对 比 ， 示 例 18-4 列 出 了 supervisor 协 程 。 


示例 18-4 spinner_asyncio.py: 异步 版 supervisor 协 程 


@asyncio.coroutine 
def supervisor(): 


spinner = asyncio.async(spin( ‘thinking! ')) 
print('spinner object:', spinner) 

result = yield from slow_function() 
spinner.cancel() 

return result 








这 两 种 supervisor 实现 之 间 的 主要 区 别 概述 如 下 。 


e asyncio. Task 对 象 差不多 与 threading.Thread 对 象 等 效 。Victor Stinner 〈 本 章 的 


特约 技术 审 校 ) 指出 ，“Task 对 象 像 是 实现 协作 式 多 任务 的 库 ( 例 如 
绿色 线程 (green thread) ”。 


Task 对 象 用 于 驱动 协 程 ，Thread 对 象 用 于 调用 可 调用 的 对 象 。 

















loop.create_task(...) 方法 获取 。 





























SE) ; Thread 实例 则 必须 调用 start 方法 ， 明 确 告知 让 它 运 行 。 





gevent) 中 的 


Task 对 象 不 由 自己 动手 实例 化 ， 而 是 通过 把 协 程 传 给 asyncio.async(...) 函数 或 


获取 的 Task 对 象 已 经 排 定 了 运行 时 间 ( 例 如， 由 asyncio.async BCH 





在 线程 版 supervisor MACH, slow function 函数 是 普通 的 函数 ， 


直接 由 线程 调 








用 。 在 异步 版 supervisor 函数 中 ，slow_function 函数 是 协 程 ， 上 日 








yield from 








驱动 。 


e YA API 能 从 外 部 终止 线程 ， 因 为 线程 随时 可 能 被 中 断 ， 导 致 系统 处 于 无 效 状 态 。 
如 果 想 终止 任务 ， 可 以 使 用 Task.cancel() 实例 方法 ， 在 协 程 内 部 抛 出 








CancelledError 异常 。 协 程 可 以 在 暂停 的 yield 处 捕获 这 个 异常 ， 




















处 理 终止 请 














e supervisor 协 程 必须 在 main 函数 中 由 loop.run_until_complete 方法 执行 。 


上 述 比 较 应 该 能 帮助 你 理解 ， 与 更 熟悉 的 threading 模型 相 比 ，asyncio 是 如 何 编排 并 


























发 作业 的 。 


线程 与 协 程 之 间 的 比较 还 有 最 后 一 点 要 说 明 : 如 果 使 用 线程 做 过 重要 的 编 
出 程序 有 多 么 困难 ， 因 为 调度 程序 任何 时 候 都 能 中 断 线程 。 必 须 记 住 保留 

















程 ， 你 就 知道 写 
锁 ， 去 保护 程序 


中 的 重要 部 分 ， 防 止 多 步 操作 在 执行 的 过 程 中 中 断 ， 防 止 数据 处 于 无 效 状 态 。 
而 协 程 默认 会 做 好 全 方位 保护 ， 以 防止 中 断 。 我 们 必须 显 式 产 出 才能 让 程序 的 余下 部 分 运 











行 。 对 协 程 来 说 ， 无 需 保留 锁 ， 在 多 个 线程 之 间 同 步 操作 ， 协 程 自身 就 会 同步 ， 因 为 在 任 
意 时 刻 只 有 一 个 协 程 运行 。 想 交 出 控制 权时 ， 可 以 使 用 yield 或 yield from 把 控制 权 

















交还 调度 程序 。 这 就 是 能 够 安全 地 取消 协 程 的 原因 : 按照 定义 ， 协 程 只 能 


























处 取消 ， 因 此 可 以 处 理 CancelledError 异常 ， 执 行 清理 操作 。 











下 面 说 明 asyncio. Future 类 与 第 17 章 所 用 的 concurrent.futures.F 
区 别 。 





在 暂停 的 yield 


uture 类 之 间 的 


18.1.1 asyncio.Future: 故意 不 阻塞 


asyncio. Future 类 与 concurrent.futures.Future 类 的 接口 基本 一 致 ， 不 过 实现 方 
式 不 同 ， 不 可 以 互 换 。 “PEP 3156—Asynchronous IO Support Rebooted: 

the‘asyncio’Module” (https://www.python.org/dev/peps/pep-3156/) 对 这 个 不 幸 状 况 是 这 样 说 
的 : 


未 来 可 能 会 统一 asyncio.Future 和 concurrent.futures.Future 类 实现 的 期 物 
(例如 ， 为 后 者 添加 兼容 yield from 的 iter 方法 ) 。 


如 17.1.3 节 所 述 ， 期 物 只 是 调度 执行 某 物 的 结果 。 在 asyncio 包 
中 ，BaseEventLoop.create_task(...) 方法 接收 一 个 协 程 ， 排 定 它 的 运行 时 间 ， 然 后 
返回 一 个 io. 实例 是 io. 类 的 实例 ， 因 为 Task 是 

Future 的 子 类 ， 用 于 包装 协 程 。 这 与 调用 Executor.submit(...) 方法 创建 


concurrent. futures. Future 实例 是 一 个 道理 。 






























































与 concurrent.futures.Future 类 似 ，asyncio.Future 类 也 提供 了 
.done(),. .add_done_callback(...) 和 .result() 等 方法 。 前 两 个 方法 的 用 法 与 
17.1.3 节 所 述 的 一 样 ， 不 过 .result() 方法 差别 很 大 。 


asyncio.Future 类 的 .result() 方法 没有 参数 ， 因 此 不 能 指定 超时 时 间 。 此 外 ， 如 果 
调用 .result() 方法 时 期 物 还 没 运行 完毕 ， 那 么 .result() 方法 不 会 阻塞 去 等 待 结果 ， 
而 是 抛 出 asyncio.InvalidstateError 异常 。 


然而 ， 获 取 asyncio. Future 对 象 的 结果 通常 使 用 yield from， 从 中 产 出 结果 ， 如 示例 
18-8 所 示 。 


使 用 yield from 处 理 期 物 ， 等 待 期 物 运行 完毕 这 一 步 无 需 我 们 关心 ， 而 且 不 会 阻塞 事件 
循环 ， 因 为 在 asyncio 包 中 ，yield from 的 作用 是 把 控制 权 还 给 事件 循环 。 


注意 ， 使 用 yield from 处 理 期 物 与 使 用 add_done_callback 方法 处 理 协 程 的 作用 一 
样 : 延迟 的 操作 结束 后 ， 事 件 循 环 不 会 触发 回调 对 象 ， 而 是 设置 期 物 的 返回 值 ， 而 yield 
From 表达 式 则 在 暂停 的 协 程 中 生成 返回 值 ， 恢 复 执行 协 程 。 


总 之 ， 因 为 asyncio.Future 类 的 目的 是 与 yield from 一 起 使 用 ， 所 以 通常 不 需要 使 
用 以 下 方法 。 


。 无需 调用 my_future.add_done_callback(...)， 因 为 可 以 直接 把 想 在 期 物 运 行 结 
束 后 执行 的 操作 放 在 协 程 中 yield from my_future 表达 式 的 后 面 。 这 是 协 程 的 一 
大 优势 : 协 程 是 可 以 暂停 和 恢复 的 函数 。 


。 无 需 调用 my_future.result()， 因 为 yield from 从 期 物 中 产 出 的 值 就 是 结果 
(例如 ，result = yield from my_future) 。 




















































































































当然， 有 时 也 需要 使 用 .done()、.add_done callback(...) 和 .result() 方 法。 但 
是 一 般 情况 下 ，asyncio.Future 对 象 由 yield from 驱动 ， 而 不 是 靠 调 用 这 些 方法 驱 
动 。 


























下 面 分 析 yield from 和 asyncio 包 的 API 如 何 拉 近期 物 、 任 务 和 协 程 的 关系 。 


18.1.2 ”从 期 物 、 任 务 和 协 程 中 产 出 


在 asyncio 包 中 ， 期 物 和 协 程 关系 紧密 ， 因 为 可 以 使 用 yield from 从 
asyncio.Future 对 象 中 产 出 结果 。 人 如 果 foo 是 协 程 函 数 〈 调 用 后 返回 协 程 
WHR) ， 抑 或 是 返回 Future 或 Task 实例 的 普通 函数 ， 那 么 可 以 这 样 写 : res = yield 
from foo()。 这 是 asyncio 包 的 API 中 很 多 地 方 可 以 互 换 协 程 与 期 物 的 原因 之 一 。 


为 了 执行 这 些 操作 ， 必 须 排 定 协 程 的 运行 时 间 ， 然 后 使 用 asyncio.Task 对 象 包装 协 
程 。 对 协 程 来 说 ， 获 取 Task 对 象 有 两 种 主要 方式 。 























asyncio.async(coro_or_future, *, loop=None) 


这 个 函数 统一 了 协 程 和 期 物 : 第 一 个 参数 可 以 是 二 者 中 的 任何 一 个 。 如 果 是 Future 
或 Task 对 象 ， 那 就 原封 不 动 地 返回 。 如 果 是 协 程 ， 那 么 async 函数 会 调用 
loop.create_task(...) 方法 创建 Task WR. lols 关键 字 参 数 是 可 选 的 ， 用 于 传 入 
事件 循环 ; 如 果 没 有 传 入 ， 那么 async 函数 会 通过 调用 asyncio.get_event_loop() P% 
数 获取 循环 对 象 。 














BaseEventLoop. create task(coro) 


这 个 方法 排 定 协 程 的 执行 时 间 ， 返 回 一 个 asyncio.Task 对 象 。 如 果 在 自 定义 的 
BaseEventLoop 子 类 上 调用 ， sn ace (如 Tornado) 中 与 Task %3 
的 某 个 类 的 实例 。 








: 











Pay BaseEventLoop.create_task(...) 方法 只 在 Python 3.4.2 及 以 上 版 本 中 可 
用 。 如 果 是 Python 3.3 或 Python 3.4 的 旧版 ， 要 使 用 asyncio.async(...) 函数 ， 或 
者 从 PyPI 中 安装 较 新 的 asyncio 版 本 (https://pypi.python.org/pypi/asyncio) o 


asyncio 包 中 有 多 个 函数 会 自动 〈 内 部 使 用 的 是 asyncio.async 函数 ) 把 参数 指定 的 协 
程 包装 在 asyncio.Task 对 象 中 ， 例 如 BaseEventLoop.run_until_complete(...) 77 


YK o 


如 果 想 在 Python 控制 台 或 者 小 型 测试 脚本 中 试验 期 物 和 协 程 ， 可 以 使 用 下 述 代码 片段 : 















































3 摘自 Petr Viktorin 于 2014 年 9 月 
ideas/2014-September/029294.html) 。 
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1 日 在 Python-ideas 邮件 列表 中 发 布 的 消息 Chttps//mailpython.org/pipermail/python- 











>>> import asyncio 
>>> def run_sync(coro_or_future): 
loop = asyncio.get_event_loop() 
return loop.run_until_complete(coro_or_future) 


>>> a = run_sync(some_coroutine()) 








在 asyncio 包 的 文档 中 ，“18.5.3. Tasks and coroutines”— fi 
(https://docs.python.org/3/library/asyncio-task.html) 说 明了 协 程 、 期 物 和 任务 之 间 的 关系 。 
其 中 有 个 注解 说 道 : 


这 份 文档 把 一 些 方法 说 成 是 协 程 ， 即 使 它们 其 实 是 返回 Future 对 象 的 普通 Python K 
数 。 这 是 故意 的 ， 为 的 是 给 以 后 修改 这 些 函 数 的 实现 留 下 余地 。 


掌握 这 些 基 础 知识 后 ， 接 下 来 要 分 析 异 步 下 载 国旗 的 flags asyncio.py 脚本 。 这 个 脚本 的 
用 法 在 示例 17-1 (第 17 章 ) 中 与 依 序 下 载 版 和 线程 池 版 一 同 演示 过 。 





























18.2 ”使 用 asyncio 和 aiohttp 包 下 载 


从 Python 3.4 #2, asyncio 包 只 直接 支持 TCP 和 UDP。 如 果 想 使 用 HITP 或 其 他 协议 ， 
那么 要 借助 第 三 方 包 。 当 下 ， 使 用 asyncio 实现 HTTP 客户 端 和 服务 器 时 ， 使 用 的 似乎 
都 是 aiohttp 包 。 


示例 18-5 是 下 载 国旗 的 flags asyncio.py 脚本 的 完整 代码 清单 。 运 作 方 式 简 述 如 下 。 


(1) 首先 ， 在 download_many 函数 中 获取 一 个 事件 循环 ， 处 理 调用 download_one 函数 
生成 的 几 个 协 程 对 象 。 


(2) asyncio 事件 循环 依次 激活 各 个 协 程 。 


3) 客户 代码 中 的 协 程 (如 get_flag) 使 用 yield from 把 职责 委托 给 库 里 的 协 程 ( 如 
aiohttp.request) 时 ， 控 制 权 交还 事件 循环 ， 执 行 之 前 排 定 的 协 程 。 


(4) 事件 循环 通过 基于 回调 的 低层 API， 在 阻塞 的 操作 执行 完毕 后 获得 通知 。 
(5) 获得 通知 后 ， 主 循环 把 结果 发 给 暂停 的 协 程 。 


(6) 协 程 向 前 执行 到 下 一 个 yield from 表达 式 ， 例 如 get_ flag 函数 中 的 yield from 
resp.read()。 事 件 循 环 再 次 得 到 控制 权 ， 重 复 第 4~6 步 ， 直 到 事件 循环 终止 。 


这 与 16.9.2 节 所 见 的 示例 类 似 。 在 那个 示例 中 ， 主 循环 依次 启动 多 个 出 租车 进程 ， 各 个 出 
租车 进程 产 出 结果 后 ， 主 循环 调度 各 个 出 租车 的 下 一 个 事件 (未 来 发 生 的 事 ) ， 然 后 激活 
队列 中 的 下 一 个 出 租车 进程 。 那个 出 租车 仿真 简单 得 多 ， 主 循环 易于 理解 。 不 过 ， 在 
asyncio 中 ， 基 本 的 流程 是 一 样 的 : 在 一 个 单线 程 程序 中 使 用 主 循环 依次 激活 队列 里 的 
es 各 个 协 程 向 前 执行 几 步 ， 然后 把 控制 权 让 给 主 循环 ， 主 循环 再 激活 队列 里 的 下 一 个 
办 程 


下 面 详细 分 析 示 例 18-5。 


示例 18-5 flags asyncio.py: 使 用 asyncio 和 aiohttp 包 实 现 的 异步 下 载 脚本 
































































































































import asyncio 


import aiohttp © 


from flags import BASE_URL, save flag, show, main @ 


@asyncio.coroutine © 
def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
image = yield from resp.read() 
return image 





@asyncio.coroutine 

def download one(cc): © 
image = yield from get_flag(cc) @ 
show(cc) 
save_flag(image, cc.lower() + 
return cc 


" gif’) 


def download_many(cc_list): 

loop = asyncio.get_event_loop() © 

to do = [download_one(cc) for cc in sorted(cc_list)] 
wait coro = asyncio.wait(to_do) 四 

res, _ = loop.run_until_complete(wait_coro) @ 
loop.close() @ 


© 


return len(res) 


if _name_ ' main_': 
main(download_many) 








@ 必须 安装 aiohttp 包 ， 它 不 在 标准 库 中 。4 








4 可 以 使 | 








pip install aiohttp 命令 安装 aiohttp 包 。 一 一 编者 注 











四 重用 flags 模块 〈 见 示例 17-2) 中 的 一 些 函数 。 
O 协 程 应 该 使 用 @asyncio.coroutine 装饰 。 


O 阻塞 的 操作 通过 协 程 实现 ， 客 户 代码 通过 yield from 把 职责 委托 给 协 程 ， 以 便 
运行 协 程 。 


O 读 取 响 应 内 容 是 一 项 单独 的 异步 操作 。 
@ download_one 函数 也 必须 是 协 程 ， 因 为 用 到 了 yield from. 











= 
FF 


wE 
2V 


@ 与 依 序 下 载 版 download_one 函数 唯一 的 区 别 是 这 一 行 中 的 yield from; 函数 定义 


体 中 的 其 他 代码 与 之 前 完全 一 样 
@ 获取 事件 循环 底层 实现 的 引用 。 





o 











© 调用 download_one 函数 获取 各 个 国旗 ， 然 后 构建 一 个 生成 器 对 象 列 表 。 
O 虽然 函数 的 名 称 是 wait， 但 它 不 是 阻塞 型 函数 。wait 是 一 个 协 程 ， 等 传 给 它 的 所 有 














协 程 运行 完毕 后 结束 (这 是 wait 函数 的 默认 行为 ， 参 见 这 个 示例 后 面 的 说 明 〉。 

















D 执行 事件 循环 ， 直 到 wait_coro 运行 结束 ; 





事件 循环 运行 的 过 程 中 ， 这 个 脚本 会 在 这 











里 阻塞 。 我 们 忽略 run_until_complete 77 
Ox. 








去 返回 的 第 二 个 元 素 。 下 文 说 明 原 因 。 











` 如 果 事 件 循 环 是 上 下 文 管理 器 就 好 了 ， 这 样 我 们 就 可 以 使 用 with 块 确保 循环 
会 被 关闭 。 然 而， 实际 情况 是 复杂 的 ， 客 户 代码 绝 不 会 直接 创建 事件 循环 ， 而 是 调用 
asyncio.get_event_loop() 函数 ， 获 取 事 件 循环 的 引用 。 而 且 有 时 我 们 的 代码 
不 “拥有 ”事件 循环 ， 因 此 关闭 事件 循环 会 出 错 。 例 如 ， 使 用 

Quamash //pypi.python.org/pypi/Quamash/) 这 种 包 实 现 的 外 部 GUI 事件 循环 时 ， 
Qt 库 负 责 在 退出 应 用 时 关闭 事件 循环 。 


asyncio.wait(...) 协 程 的 参数 是 一 个 由 期 物 或 协 程 构成 的 可 迭代 对 象 ，wait 会 分 别 
把 各 个 协 程 包装 进 一 个 Task UR. RAMA KE, wait 处 理 的 所 有 对 象 都 通过 其 种 广 
式 变 成 Future 类 的 实例 。wait 是 协 程 函数 ， 因 此 返回 的 是 一 个 协 程 或 生成 器 对 

RR; wait_coro 变量 中 存储 的 正 是 这 种 对 象 。 为 了 驱动 协 程 ， 我 们 把 协 程 传 给 
loop.run_until_complete(...) 方法。 


loop.run_until_complete 方法 的 参数 是 一 个 期 物 或 协 程 。 如 果 是 协 

程 ， run_until_complete 方法 与 wait 函数 一 样 ， 把 协 程 包装 进 一 个 Task 对 象 中 。 协 
程 、 期 物 和 任务 都 能 由 yield from 驱动 ， 这 正 是 run ee a 方法 对 wait 
函数 返回 的 wait_coro 对 象 所 做 的 事 。wait_coro 运行 结束 后 返回 一 个 元 组 ， 第 一 个 元 
素 是 一 系列 结束 的 期 物 ， 第 二 个 元 素 是 一 RIIK 吉 束 的 期 物 。 在 示例 18-5 中 ， 第 二 个 元 
素 始终 为 空 ， 因 此 我 们 把 它 赋 信 给 ， 将 其 忽略 。 但 是 wait 函数 有 两 个 关键 字 参 数 ， 如 
果 设 定 了 可 能 会 返回 未 引 吉 束 的 期 物 ; ”这 两 个 参数 是 timeout 和 return_when。 详 情 参见 
asyncio.wait 函数 的 文档 Chttps://docs.python.org/3/library/asyncio- 
task.html#asyncio.wait) 。 


注意 ， 在 示例 18-5 中 不 能 重用 flags.py 脚本 《〈 见 示例 17-2) 中 的 get_flag 函数 ， 因 为 那 
个 函数 用 到 了 requests 库 ， 执 行 的 是 阻塞 型 IO 操作 。 为 了 使 用 asyncio 包 ， 我 们 必 
须 把 每 个 访问 网 络 的 函数 改 成 异步 版 ， 使 用 yield from 处 理 网 络 操作 ， 这 样 才能 把 控制 
cera 在 get_flag 函数 中 使 用 yield from， 意 味 着 它 必须 像 协 程 那样 驱 
ZB) o 













































































因此 ， 不 能 重用 flags threadpool.py 脚本 《〈 见 示例 17-3) 中 的 download_one 函数 。 示 例 
18-5 中 的 代码 使 用 yield from 驱动 get_flag 函数 ， 因 此 download_one 函数 本 身 也 
得 是 协 程 。 每 次 请 求 时 ，download_many 函数 会 创建 一 个 download_one 协 程 对 象 ， 这 
些 协 程 对 象 先 使 用 asyncio .wait 协 程 包装 ， 然 后 由 loop.run_until_complete 方法 
驱动。 

asyncio 包 中 有 很 多 新 概念 要 掌握 ， 不 过 ， 如 果 你 采用 Guido van Rossum 建议 的 一 个 技 
巧 ， 就 能 轻松 地 理解 示例 18-5 的 总 体 逻 辑 : KER, (BRIA yield from KEF. iX 
样 做 之 后 ， 你 会 发 现 示例 18-5 中 的 代码 与 纯粹 依 序 下 载 的 代码 一 样 易于 阅读 。 


比如 说 ， 以 这 个 协 程 为 例 : 


















































@asyncio.coroutine 

def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
image = yield from resp.read() 


return image 





我 们 可 以 假设 它 与 下 述 函 数 的 作用 相同 ， 只 不 过 协 程 版 从 不 阻塞 : 





def get_flag(cc): 
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower()) 
resp = aiohttp.request('GET', url) 
image = resp.read() 
return image 








yield from foo 句法 能 防止 阻塞 ， 是 因为 当前 协 程 〈 即 包含 yield from 代码 的 委派 生 
成 器 ) ee ue 事件 循环 手中 ， 再 去 驱动 其 他 协 程 ，foo 期 物 或 协 程 运行 完毕 
后 ， 把 结果 返回 给 暂停 的 协 程 ， 将 其 恢复 。 


在 16.7 节 的 末尾 ， 我 对 yield from 的 用 法 做 了 两 点 陈述 ， 摘 要 如 下 。 


e (EH yield from 链接 的 多 个 协 程 最 终 必须 由 不 是 协 程 的 调用 方 驱动 ， 调 用 方 显 式 或 
隐 式 (例如 ， 在 for 循环 中 ) 在 最 外 层 委 派生 成 器 上 调用 next(...) 函数 或 
eae 方法。 


。 链 条 中 最 内 层 的 子 生 成 器 必须 是 简单 的 生成 器 (只 使 用 yield) 或 可 迭代 的 对 象 。 
在 asyncio 包 的 API 中 使 用 yield from 时 ， 这 两 点 都 成 立 ， 不 过 要 注意 下 述 细节 。 


。 我 们 编写 的 协 程 链 条 始终 通过 把 最 外 层 委派 生成 器 传 给 asyncio 包 API FREARK 
数 (如 loop.run_until_complete(...)) 驱动 。 


也 就 是 说 ， 使 用 asyncio 包 时 ， 我 们 编写 的 代码 不 通过 调用 next(...) 函数 或 
.send(...) 方法 驱 5 这 一 点 由 asyncio 包 实现 的 事件 循环 去 做 。 


我 们 编写 的 协 程 链条 最 终 通过 yield from 把 职责 委托 给 asyncio 包 中 的 某 个 协 程 
函数 或 协 程 方法 (例如 示例 18-2 中 的 yield from asyncio.sleep(...)) ， 或 者 
其 他 库 中 实现 高 层 协 议 的 协 程 ( 例 如 示例 18-5 中 get_flag 协 程 里 的 resp = 
yield from aiohttp. request('GET', url)) . 


tag 最 内 层 的 子 生成 器 是 库 中 真正 执行 IO 操作 的 函数 ， 而 不 是 我 们 自己 编写 
概括 起 来 就 是 : 使 用 asyncio 包 时 ， 我 们 编写 的 异步 代码 中 包含 由 asyncio 本 身 驱 动 的 
协 程 〈 即 委派 生成 器 ) ， 而 生成 器 最 终 把 职责 委托 给 asyncio 包 或 第 三 方 库 〈 如 


aiohttp) 中 的 协 程 。 这 种 处 理 方式 相当 于 架 起 了 管道 ， 让 asyncio 事件 循环 (通过 我 
们 编写 的 协 程 ) 驱动 执行 低层 异步 IO 操作 的 库 函 数 。 


现在 可 以 回答 第 17 章 提 出 的 那个 问题 了 。 
e flags asyncio.py 脚本 和 flags.py 脚本 都 在 单个 线程 中 运行 ， 前 者 怎么 会 比 后 者 快 $ 
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18.3 i SPA SE AY a] H 


Ryan Dahl (Node.js 的 发 明 者 〉 在 介绍 他 的 项 目 背 后 的 哲学 时 说 : Sheer yay 
底 错 了 .5 他 把 执行 硬盘 或 网 络 VO 操作 的 函数 定义 为 阻塞 型 再 数 ， 主张 不 能 像 对 待 
阻塞 型 函数 那样 对 和 等 阻塞 型 函数 。 为 了 说 明 原 因 ， 他 展示 了 表 18-1 中 的 前 两 列 。 








Seqntroduction to Node.js” https://www.youtube.com/watch? v=M-sc73Y-zQA ) 视频 4:55 处 。 





表 18-1: 使 用 现代 的 电脑 从 不 同 的 存储 介质 中 读 取 数据 的 延迟 情况 ， 第 三 栏 按 比 例 换 
算 成 具体 的 时 间 ， 便 于 人 类 理解 









































存储 介质 CPU 周期 按 比 例 换算 成 < 人 类 时 间 ” 
Ll 缓存 3 3 秒 
L2 缓存 14 14 秒 
RAM 250 250 $ 
硬盘 41 000 000 1.3 年 
网 络 240 000 000 7.6 年 























为 了 理解 表 18-1， 请 记 住 一 点 : 现代 的 CPU 拥有 GHz 数量 级 的 时 钟 频 率 ， 每 秒 钟 能 运行 
几 十 亿 个 周期 。 假 设 CPU 每 秒 正好 运行 十 亿 个 周 期 ， 那 么 CPU 可 以 在 一 秒 钟 内 读 取 L1 
缓存 333 333 333 次 ， 读 取 网 络 4 次 (只 有 4 次 ) 。 表 18-1 中 的 第 三 栏 是 拿 第 二 栏 中 的 各 
个 值 乘 以 固定 的 因子 得 到 的 。 因 此 ， 在 另 一 个 世界 中 ， 如 果 读 取 L 缓存 要 用 3 秒 ， 那 么 
读 取 网 络 要 用 7.6 年 ! 


有 两 种 方法 能 避免 阻塞 型 调用 中 止 整个 应 用 程序 的 进程 : 

。 在 单独 的 线程 中 运行 各 个 阻塞 型 操作 

。 把 每 个 阻塞 型 操作 转换 成 非 阻塞 的 异步 调用 使 用 

多 个 线程 是 可 以 的 ， 但 是 各 个 操作 系统 线程 (Python 使 用 的 是 这 种 线程 ) 消耗 的 内 存 达 兆 
字 节 (具体 的 量 取 决 于 操作 系统 种 类 ) 。 如 果 要 处理 几 干 个 连接 ， 而 每 个 连接 都 使 用 一 个 
线程 的 话 ， 我 们 负担 不 起 。 


为 了 降低 内 存 的 消耗 ， a eras pre -o a ea eda 
AML PTE. BUG A ` 等 待 响应 ， 而 是 注册 













































































一 个 函数 ， 在 发 生 某 件 事 时 调用 。 这 样 ， 所 有 调用 都 是 非 阻 塞 的 。 因 为 回调 简单 ， 而 且 消 
耗 低 ， 所 以 Ryan Dahl 拥护 这 种 方式 。 


当然 ， 只 有 有 异步 应 用 程序 底层 的 事件 循环 能 依靠 基础 设置 的 中 断 、 线 程 、 轮 询 和 后 台 进 程 
等 ， 确保 多 个 并 发 请 求人 取得 进展 并 最 终 完成 ， 这 样 才能 使 用 回调 。$ 事件 循环 获得 响应 
后 ， 会 回 过 头 来 调用 我 们 指定 的 回调 。 不 过 ， 如 果 做 法 正确 ， 事 件 循环 和 应 用 代码 共用 的 
主线 程 绝 不 会 阻塞 。 



























































oH 虽然 Node.js 不 支持 使 用 JavaScript 编写 的 用 户 级 线程 ， 但 是 在 背后 却 借助 libeio EEH C 语言 实现 了 线程 
ib, 以 此 提 人 :基于 回调 的 文件 API 一 一 因为 从 2014 年 起 ， 大 多 数 操作 系统 都 不 提供 稳定 且 便携 的 异步 文件 处 理 API 
了 。 





































































































把 生成 器 当 作 协 程 使 用 是 异步 编程 的 另 一 种 方式 。 对 事件 循环 来 说 ， 调 用 回调 与 在 暂停 的 
协 程 上 调用 .send() 方法 效果 差不多 。 各 个 暂停 的 协 程 oo 但 是 比 线程 消耗 
的 内 存 数 量 级 小 。 而 且 ， 协 程 能 避免 可 怕 的 “回调 地 狱 ”， 这 一 点 会 在 18.5 节 讨 论 。 


现在 你 应 该 能 理解 为 什么 flags_asyncio.py 脚本 的 性 能 比 flags.py 脚本 高 5 倍 了 : flags.py 
脚本 依 序 下 载 ， 而 每 次 下 载 都 要 用 几 十 亿 个 CPU 周期 等 待 结果 。 其 实 ，CPU 同时 做 了 很 
多 事 ， 只 是 没有 运行 你 的 程序 。 与 此 相 比 ， 在 flags asyncio.py 脚本 中 ， 在 
download_many 函数 中 调用 loop.run_until_complete 方法 时 ， 事 件 循环 驱动 各 个 
download_one 协 程 ， 运 行 到 第 一 个 yield from 表达 式 处 ， 那 个 表达 式 又 驱动 各 个 
get_flag 协 程 ， 运 行 到 第 一 个 yield from 表达 式 处 ， 调 用 aiohttp.request(...) 
函数 。 这 些 调用 都 不 会 阻塞 ， 因 此 在 零点 几 秒 内 所 有 请 求全 部 开始 。 


asyncio 的 基础 设施 获得 第 一 个 响应 后 ， 事 件 循环 把 响应 发 给 等 待 结果 的 get_flag 协 
程 。 得 到 响应 后 ，get_flag 问 前 执行 到 下 一 个 yield from 表达 式 处 ， 调 用 
resp.read() 方法 ， 然 后 把 控制 权 还 给 主 循环 。 其 他 响应 会 陆续 返回 (因为 请 求 几乎 同 
Ue 所 有 get_ flag 协 程 都 获得 结果 后 ， 委 派生 成 器 download_one 恢复 ， 保 存 
图 像 文件 。 




































































` 为 了 尽量 提高 性 能 ，save_flag 函数 应 该 执行 异步 操作 ， 可 是 asyncio HH 
前 没有 提供 异步 文件 系统 API (Node A) 。 如 果 这 是 应 用 的 瓶 贷 ， 可 以 使 用 
loop.run_in_executor 方法 (https://docs.python.org/3/library/asyncio- 


eventloop.html#asyncio.BaseEventLoop.run in executor) ， 在 线程 池 中 运行 save_flag 
函数 。 示 例 18-9 会 说 明 做 法 。 


因为 异步 操作 是 交叉 执行 的 ， 所 以 并 发 下 载 多 张 图 像 所 需 的 总 时 间 比 依 序 下 载 少 得 多 。 我 
使 用 asyncio 包 发 起 了 600 个 HITP 请 求 ， 获 得 所 有 结果 的 时 间 比 依 序 下 载 快 70 倍 。 


现在 回 到 那个 HTTP 客户 端 示 例 ， 看 看 如 何 显示 动态 的 进度 条 ， 并 且 恰 当地 处 理 错误 。 





























18.4 改进 asyncio 下 载 脚本 


17.5 节 说 过 ，flags2 系列 示例 的 命令 行 接口 相同 。 本 节 要 分 析 这 个 系列 中 的 





flags2_asyncio.py 脚本 。 例 如 ， 示 例 18-6 展示 如 何 使 用 100 个 并 发 请 求 (-m 100) 从 





ERROR 服务 器 中 下 载 100 面 国旗 (-al 100) 。 


示例 18-6 ”运行 flags2 asyncio.py 脚本 





$ python3 flags2_asyncio.py -s ERROR -al 100 -m 100 
ERROR site: http://localhost:8003/flags 

Searching for 100 flags: from AD to LK 

100 concurrent connections will be used. 

73 flags downloaded. 

27 errors. 

Elapsed time: 0.64s 














Bey 测试 并 发 客户 端 要 谨慎 





尽管 线程 版 和 asyncio 版 HTTP 客户 端的 下 载 总 时 间 相 差 无 几 ， 但 是 asyncio 版 发 
送 请 求 的 速度 更 快 ， 因 此 很 有 可 能 对 服务 器 发 起 DoS 攻击 。 为 了 全 速 测试 这 些 并 发 





客户 端 ， 应 该 在 本 地 搭建 HTTP 服务 器 ， 详 情 参见 本 书 代码 仓库 

Chttps://github.com/fluentpython/example-code) 中 17-futures/countries/ 目录 里 的 
README.rst 文件 Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/ README.rst) 。 


下 面 分 析 flags2_asyncio.py 脚本 的 实现 方式 。 








18.4.1 使 用 asyncio.as_completed 函 数 
在 示例 18-5 中 ， 我 把 一 个 协 程 列 表 传 给 asyncio.wait 函数 ， 经 由 














loop.run_until_complete 方法 驱动 ， 全 部 协 程 运 行 完 毕 后 ， 这 个 函数 会 返回 所 有 下 载 
结果 。 可 是 ， 为 了 更 新 进度 条 ， 各 个 协 程 运行 结束 后 就 要 立即 获取 结果 。 eae 














中 《 见 示例 17-14) ， 为 了 集成 进度 条 ， 我 们 使 用 的 是 as_completed 生成 器 函数 ; 
好 ，asyncio 包 提 供 了 这 个 生成 器 函数 的 相应 版 本 。 

















为 了 使 用 asyncio 包 实 现 flags2 示例 ， 我 们 要 重 写 几 个 函数 ， 重 写 后 的 函数 可 以 供 














concurrent.future 版 重用 。 之 所 以 要 重 写 ， 是 因为 在 使 用 asyncio 包 的 程序 中 只 





个 主线 程 ， 而 在 这 个 线程 中 不 能 有 阻塞 型 调用 ， 因 为 事件 循环 也 在 这 个 线程 中 运行 。 








有 = 
所 





以 ， 我 要 重 写 get flag MM, (HA yield from 访问 网 络 。 现 在 ， 由 于 get_flag 是 协 


fz, download_one 函数 必须 使 用 yield from 驱动 它 ， 因 此 download_one 自己 也 要 





变 成 协 程 。 之 前 ， 在 示例 18-5 44, download_one 由 download_many 4X 
动 : download_one 函数 由 asyncio. wait 函数 调用 ， 然 后 传 给 



























































loop.run_until_complete 方法 。 现 在 ， 为 了 报告 进度 并 处 理 错误 ， 我 们 要 更 精确 地 控 
制 ， 所 以 我 把 download_many 函数 中 的 大 多 数 逻 辑 移 到 一 个 新 的 协 程 
downloader_coro 中 ， 只 在 download_many 函数 中 设置 事件 循环 ， 以 及 调度 
downloader_coro 协 程 。 


























示例 18-7 展示 的 是 flags2 asyncio.py 脚本 的 前 半 部 分 ， 定 义 get_flag 和 download_one 
协 程 。 示 例 18-8 列 出 余下 的 源码 ， 定 义 downloader_coro 协 程 和 download_many 函 


示例 18-7 flags2_asyncio.py: 脚本 的 前 半 部 分 ; 余下 的 代码 在 示例 18-8 中 











import asyncio 
import collections 


import aiohttp 
from aiohttp import web 


import tqdm 


from flags2_common import main, HTTPStatus, Result, save flag 








# 默认 设 为 较 小 的 值 ， 防 止 远程 网 站 出 错 

# 例如 563 - Service Temporarily Unavailable 
DEFAULT_CONCUR_REQ = 5 

MAX_CONCUR_REQ = 1000 


I 











class FetchError(Exception): © 
def _ init__(self, country_code): 
self.country_code = country_code 


@asyncio.coroutine 
def get_flag(base url, cc): @ 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = yield from aiohttp.request('GET', url) 
if resp.status == 200: 
image = yield from resp.read() 
return image 
elif resp.status == 404: 
raise web.HTTPNotFound( ) 
else: 
raise aiohttp.HttpProcessingError( 
code=resp.status, message=resp.reason, 
headers=resp.headers) 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): © 
try: 
with (yield from semaphore): @ 
image = yield from get_flag(base url, cc) 日 
except web.HTTPNotFound: © 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc @ 





else: 
save _flag(image, cc.lower() + '.gif') O 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 























(1) 这 个 自 定义 的 异常 用 于 包装 其 他 HTTP 或 网 络 异 常 ， 并 获取 country_code, MERE 


错误 。 


O get flag 协 程 有 三 种 返回 结果 : 返回 下 载 得 到 的 图 像 ，HTTP 响应 码 为 404 时 ， 抛 出 
web.HTTPNotFound 异常 ; 返回 其 他 HTTP 状态 码 时 ， 抛 出 


aiohttp.HttpProcessingError 异常 。 


























© semaphore 参数 是 asyncio.Semaphore 类 Chttps: //docs.python.org/3/library/asyncio- 
syne. html#asyncio.Semaphore) ASEH]. Semaphore 类 是 同步 装置 ， 用 于 限制 并 发 请 求 数 


量 。 


@ Æ yield from 表达 式 中 把 semaphore 当成 上 下 文 管理 器 使 用 ， 防 止 阻塞 整个 系统 : 
如 果 semaphore 计数 器 的 值 是 所 允许 的 最 大 值 ， 只 有 这 个 协 程 会 阻塞 。 


O 退出 这 个 with 语句 后 ，semaphore 计数 器 的 值 会 递减 ， 解 除 阻 塞 可 能 在 等 待 同一 个 
semaphore 对 象 的 其 他 协 程 实例 。 


@ 如 果 没 找到 国旗 ， 相 应 地 设置 Result 的 状态 。 


O 其 他 异常 当 作 FetchError 抛 出 ， 传 入 国家 代码 ， 并 使 用 “PEP 3134 一 Exception 
Chaining and Embedded Tracebacks” Chttps://www.python.org/dev/peps/pep-3134/) 引入 的 
raise X from Y 句法 链接 原来 的 异常 。 


O 这 个 函数 的 作用 是 把 国旗 文件 保存 到 硬盘 中 。 


可 以 看 出 ， 与 依 序 下 载 版 相 比 ， 示 例 18-7 中 的 get_flag 和 download_one 函数 改动 幅 
度 很 大 ， 因 为 现在 这 两 个 函数 是 协 程 ， 要 使 用 yield from 做 异步 调用 。 


对 于 我 们 分 析 的 这 种 网 络 客 户 端 代码 来 说 ， 一 定 要 使 用 某 种 限 流 机 制 ， 防 止 同 服务 器 发 起 
太 多 并 发 请 求 ， 因 为 如 果 服 务 器 过 载 ， 那 么 系统 的 整体 性 能 可 能 会 下 降 。 
flags2_threadpool.py 脚本 〈 见 示例 17-14) 限 流 的 方法 是 ， 在 download_many 函数 中 实例 
化 ThreadPoolExecutor 类 时 把 max_workers 参数 的 值 设 为 concur_req， 只 在 线程 池 
中 启动 concur_req 个 线程 。 在 flags2_asyncio.py 脚本 中 我 的 做 法 是 ， 在 
downloader_coro 函数 中 创建 一 个 asyncio.Semaphore 实例 (在 后 面 的 示例 18-8 

中 ) ， 然 后 把 它 传 给 示例 18-7 中 download_one 函数 的 semaphore 参数 。” 

































































?感谢 Guto Maia 指出 本 书 的 草稿 没有 说 明 Semaphore 类 。 








Semaphore Xf RAE AT Aas, FERREA .acquire() 协 程 方法 ， 计 数 
器 则 递减 ， 若 在 对 象 上 调用 . release( ) 协 程 方法 ， 计 数 器 则 递增 。 计 数 器 的 初始 值 在 实 
例 化 Semaphore 时 设 定 ， 如 downloader_coro 函数 中 的 这 一 行 所 示 : 


semaphore = asyncio.Semaphore(concur_req) 


如 果 计 数 器 大 于 零 ， 那 么 调用 acquire() 方法 不 会 阻塞 ， 可 是 ， 如 果 计 数 器 为 零 ， 那 么 
.acquire() 方法 会 阻塞 调用 这 个 方法 的 协 程 ， 直 到 其 他 协 程 在 同一 个 Semaphore 对 象 

上 调用 .release() 方法 ， 让 计数 器 递增 。 在 示例 18-7 中 ， 我 没有 调用 .acquire() 或 

.release() 方法 ， 而 是 在 download_one 函数 中 的 下 述 代 码 块 中 把 semaphore 当 作 上 

下 文 管理 器 使 用 : 


with (yield from semaphore): 
image = yield from get flag(base url, cc) 


这 段 代码 保证 ， 任 何 时 候 都 不 会 有 超过 concur_req 个 get_flag 协 程 启动 。 


现在 来 分 析 示 例 18-8 中 这 个 脚本 余下 的 代码 。 注 意 ，down1load_many 函数 中 以 前 的 大 多 
数 功能 现在 都 在 downloader_coro 协 程 中 。 我 们 必须 这 么 做 ， 因 为 必须 使 用 yield 
from 获取 asyncio.as_ completed 函数 产 出 的 期 物 的 结果 ， 所 以 as_completed 函数 
必须 在 协 程 中 调用 。 可 是 ， 我 不 能 直接 把 download many 函数 改 成 协 程 ， 因 为 必须 在 脚 
本 的 最 后 一 行 把 download_many 函数 传 给 flags2_common 模块 中 定义 的 main 函数 ， 可 
main 函数 的 参数 不 是 协 程 ， 而 是 一 个 普通 的 函数 。 因 此 ， 我 定义 了 downloader_coro 
协 程 ， 让 它 运 行 as_completed 循环 。 现 在 ，download_many 函数 只 用 于 设置 事件 循 
环 ， 并 把 downloader_coro 协 程 传 给 loop.run_until_complete 方法 ， 调 度 
downloader_coro. 

























































































示例 18-8 ”flags2 asyncio.py: 接续 示例 18-7 





@asyncio.coroutine 
def downloader_coro(cc_list, base_url, verbose, concur_req): @ 
counter = collections .Counter() 
semaphore = asyncio.Semaphore(concur_req) @ 
to_do = [download_one(cc, base_url, semaphore, verbose) 
for cc in sorted(cc_list)] © 


to_do_iter = asyncio.as_completed(to_do) @ 
if not verbose: 
to_do_iter = tqdm.tqdm(to_do_iter, total=len(cc_list)) © 
for future in to do iter: © 
try: 
res = yield from future @ 
except FetchError as exc: © 
country_code = exc.country_code © 
try: 
error_msg = exc. cause .args[e6] 四 
except IndexError: 
error msg = exc. __cause_.__class_.__name_ ® 
if verbose and error_msg: 





msg = '*** Error for {}: {}' 
print(msg.format(country_code, error msg)) 
status = HTTPStatus.error 
else: 
status = res.status 


counter[status] += 1 @ 


return counter © 


def download_many(cc_list, base_url, verbose, concur_req): 
loop = asyncio.get_event_loop() 
coro = downloader_coro(cc_list, base_url, verbose, concur_req) 
counts = loop.run_until_complete(coro) © 
loop.close() © 
return counts 


if _name == ' main _ 
main(download_many, DEFAULT CONCUR REQ, MAX_CONCUR_REQ) 











@ 这 个 协 程 的 参数 与 download many 函数 一 样 ， 但 是 不 能 直接 调用 ， 因 为 它 是 协 程 函 
数 ， 而 不 是 像 download_many 那样 的 普通 函数 。 


四 创建 一 个 asyncio.Semaphore 实例 ， 最 多 允许 激活 concur_req 个 使 用 这 个 计数 器 
的 协 程 。 


© 多 次 调用 download_one 协 程 ， 创 建 一 个 协 程 对 象 列表 。 
O 获取 一 个 迭代 器 ， 这 个 迭代 器 会 在 期 物 运 行 结束 后 返回 期 物 。 
O 把 迭代 器 传 给 tqdm 函数 ， 显 示 进 度 。 


@ 友 代 运行 结束 的 期 物 ， 这 个 循环 与 示例 17-14 中 download_many 函数 里 的 那个 十 分 相 
似 ; 不 同 的 部 分 主要 是 异常 处 理 ， 因 为 两 个 HTTP 库 (requests 和 aiohttp) 之 间 有 差 


异 。 


@ 获取 asyncio.Future 对 象 的 结果 ， 最 简单 的 方法 是 使 用 yield from， 而 不 是 调用 
future.result() 方法 。 


© download_one 函数 抛 出 的 各 个 异常 都 包装 在 FetchError 对 象 里 ， 并 且 链 接 原 来 的 


异常 。 


从 FetchError 异常 中 获取 错误 发 生 时 的 国家 代码 。 



















































































O 尝试 从 原来 的 异常 (__cause ) 中 获取 错误 消息 。 
@ 如 果 在 原来 的 异常 中 找 不 到 错误 消息 ， 使 用 所 链接 异常 的 类 名 作为 错误 消息 。 








@ 记录 结果 。 


全 与 其 他 脚本 一 样 ， 返 回 计 数 器 。 


D download_many 函数 只 是 实例 化 downloader_coro 协 程 ， 然 后 通过 
run_until_complete 方法 把 它 传 给 事件 循环 。 


O 所 有 工作 做 完 后 ， 关 闭 事件 循环 ， 返 回 counts. 
在 示例 18-8 中 不 能 像 示 例 17-14 那样 把 期 物 映 射 到 国家 代码 上 ， 因 为 


asyncio.as_completed 函数 返回 的 期 物 与 传 给 as_completed 函数 的 期 物 可 能 不 同 。 
在 asyncio 包 内 部 ， 我 们 提供 的 期 物 会 被 蔡 换 成 生成 相同 结果 的 期 物 。3 


























8 关于 这 一 点 的 详细 讨论 ， 可 以 阅读 我 在 python-tulip 讨论 组 中 发 起 的 话题 ， 题 为 “Which other futures my come out of 
asyncio.as_completed?” (https://groups.google.com/forum/#!msg/python-tulip/PdAEtwpaJHs/7fqb-Qj2zJoJ ) > Guido 回复 了 ， 
而 且 深 入 分 析 了 as_completed 函数 的 实现 ， 还 说 明了 asyncio 包 中 期 物 与 协 程 之 间 的 紧密 关系 。 



































因为 失败 时 不 能 以 期 物 为 键 从 字典 中 获取 国家 代码 ， 所 以 我 实现 了 自 定义 的 FetchError 
异常 (如 示例 18-7 所 示 ) 。FetchError 包装 网 络 异 常 ， 并 关联 相应 的 国家 代码 ， 因 此 
在 详细 模式 中 报告 错误 时 能 显示 国家 代码 。 如 果 没 有 错误 ， 那 么 国家 代码 是 for 循环 项 
部 那个 yield from future 表达 式 的 结果 。 


我 们 使 用 asyncio 包 实 现 的 这 个 示例 与 前 面 的 flags2_threadpool.py 脚本 具有 相同 的 功 
能 ， 这 一 话题 到 此 结束 。 接 下 来 ， 我 们 要 改进 flags2_asyncio.py 脚本 ， 进 一 步 探索 


asyncio 包 。 


在 分 析 示 例 18-7 的 过 程 中 ， 我 发 现 save_f1lag 函数 会 执行 硬盘 IO 操作 ， 而 这 应 该 异步 
执行 。 下 一 节 说 明 做 法 。 


18.4.2 ”使 用 Executor 对 象 ， 防 止 阻塞 事件 循环 


Python 社区 往往 会 忽略 一 个 事实 一 一 访问 本 地 文件 系统 会 阻塞 ， 想 当然 地 认为 这 种 操作 不 
会 受 网 络 访问 的 高 延迟 影响 〈 这 也 极 难 预料 ) 。 与 之 相 比 ，Node.js 程序 员 则 始终 谨 记 ， 
所 有 文件 系统 函数 都 会 阻塞 ， 因 为 这 些 函数 的 签名 中 指明 了 要 有 回调 。 表 18-1 已 经 指 
出 ， 硬 盘 IO 阻塞 会 浪费 几 百 万 个 CPU 周期 ， 而 这 可 能 会 对 应 用 程序 的 性 能 产生 重大 影 
MF 


在 示例 18-7 中 ， 阻 塞 型 函数 是 save_f1ag。 在 这 个 脚本 的 线程 版 中 《〈 见 示例 17- 

14) , save flag 函数 会 阻塞 运行 download_one 函数 的 线程 ， 但 是 阻塞 的 只 是 众多 工 
作 线 程 中 的 一 个 。 阻 塞 型 VO 调用 在 背后 会 释放 GIL， 因 此 另 一 个 线程 可 以 继续 。 但 是 在 
flags2_asyncio.py 脚本 中 ，save_flag 函数 阻塞 了 客户 代码 与 asyncio 事件 循环 共用 的 唯 
一 线程 ， 因 此 保存 文件 时 ， 整 个 应 用 程序 都 会 冻结 。 这 个 问题 的 解决 方法 是 ， 使 用 事件 循 
环 对 象 的 run_in_executor 方法 。 


asyncio 的 事件 循环 在 背后 维护 着 一 个 ThreadPoolExecutor 对 象 ， 我 们 可 以 调用 
run_in_executor 方法 ， 把 可 调用 的 对 象 发 给 它 执行 。 若 想 在 这 个 示例 中 使 用 这 个 功 
fÉ, download_one 协 程 只 有 几 行 代码 需要 改动 ， 如 示例 18-9 所 示 。 

































































示例 18-9 flags2_asyncio_executor.py: 使 用 默认 的 ThreadPoolExecutor 对 象 运行 


save flag AŽ 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): 
image = yield from get_flag(base_url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 
loop = asyncio.get_event_loop() @ 
loop.run_in_executor(None, @ 
save flag, image, cc.lower() + '.gif') © 
status = HTTPStatus.ok 
msg = ‘OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 








@ 获取 事件 循环 对 象 的 引用 。 


四 run_in_executor 方法 的 第 一 个 参数 是 Executor 实例 ， 如 果 设 为 None， 使 用 事件 
循环 的 默认 ThreadPoolExecutor 实例 。 


@ 余下 的 参数 是 可 调用 的 对 象 ， 以 及 可 调用 对 象 的 位 置 参数 。 








` 我 测试 示例 18-9 时 ， 没 有 发 现 改 用 run_in_executor 方法 保存 图 像 文 件 后 性 
能 有 明显 变化 ， 因 为 图 像 都 不 大 (平均 13KB) 。 不 过 ， 如 果 编 辑 flags2_common.py 
脚本 中 的 save_flag 函数 ， 把 各 个 文件 保存 的 字 节 数 变 成 原来 的 10 倍 ( 只 需 把 
fp.write(img) 改 成 fp.write(img*16)) ， 此 时 便 会 看 到 效果 。 下 载 的 平均 字 节 
数 变 成 130KB 后 ， 使 用 run_in_executor 方法 的 好 处 就 体现 出 来 了 。 如 果 下 载 包 
含 百 万 像素 的 图 像 ， 速 度 提 和 开 更 明显 。 


如 果 需 要 协调 异步 请 求 ， 只 是 发 起 完全 独立 的 请 求 ， 协 程 较 之 回调 的 好 处 会 变 得 显 而 
易 见 。 下 一 TEOMA, 并 给 出 解决 方法 。 












































18.5 从 回调 到 期 物 和 协 程 


使 用 协 程 做 面向 事件 编程 ， 需 要 下 一 番 功 夫 才 能 掌握 ， 因 此 最 好 知道 ， 与 经 典 的 回调 式 编 
程 相 比 ， 协 程 有 哪些 改进 。 这 就 是 本 节 的 话题 。 


只 要 对 回调 式 面 向 事件 编程 有 一 定 的 经 验 ， 就 知道 “回调 地 狱 ”* 这 个 术语 : 如 果 一 个 操作 需 
要 依赖 之 前 操作 的 结果 ， 那 就 得 藤 套 回调 。 如 果 要 连续 做 3 次 异步 调用 ， 那 就 需要 巷 套 3 
层 回调 。 示 例 18-10 是 一 个 使 用 JavaScript 编写 的 例子 。 


示例 18-10 JavaScript 中 的 回调 地 狱 : 藤 套 匿名 函数 ， 也 称 为 灾难 金字 塔 




































































api_calli(request1, function (response1) { 
// 第 一 步 
var request2 = step1(response1) ; 





api_call2(request2, function (response2) { 
// 第 二 步 
var request3 = step2(response2) ; 





api_call3(request3, function (response3) { 
// 第 三 步 
step3(response3) ; 
})3 
})3 
}); 














在 示例 18-10 F, api_call1, api_call2 和 api cal13 是 库 函 数 ， 用 于 异步 获取 结 
果 。 例 如 ，api_call1 从 数据 库 中 获取 结果 ，api_call2 从 Web 服务 器 中 获取 结果 。 这 
> ee 在 JavaScript 中 ， 回 调 通常 使 用 匿名 函数 实现 〈 在 下 述 Python 示例 中 

别 把 这 3 个 回调 命名 为 stage1、stage2 和 stage3) 。 这 里 的 step1、step2 和 
as 是 应 用 程序 中 的 常规 函数 ， 用 于 处 理 回 调 接收 到 的 响应 。 


示例 18-11 展示 Python 中 的 回调 地 狱 是 什么 样子 。 
示例 18-11 Python 中 的 回调 地 狱 ， 链 式 回调 















































def stage1(response1): 
request2 = step1(response1) 
api_call2(request2, stage2) 


def stage2(response2): 
request3 = step2(response2) 
api_call3(request3, stage3) 


def stage3(response3): 
step3(response3) 





api_calli(request1, stage1) 























虽然 示例 18-11 中 的 代码 与 示例 18-10 的 排 布 方式 差异 很 大 ， 但 是 作用 却 完 全 相同 。 前 述 


JavaScript 示例 也 能 改写 成 这 种 排 布 方式 (但 是 这 上 段 Python 代码 不 能 改写 成 JavaScript 那 








种 风格 ， 因 为 lambda 表达 式 句 法 上 有 限制 ) 。 














示例 18-10 和 示例 18-11 组 织 代码 的 方式 导致 代码 难以 阅读 ， 也 更 难 编写 ; 每 个 函数 做 一 








部 分 工作 ， 设 置 下 一 个 回调 
都 会 丢失 。 执 行 下 一 个 回调 
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H| 
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， 然 后 返回 ， 让 事件 循环 继续 运行 。 这 样 ， 所 有 本 地 的 上 下 文 
时 《例如 stage2) ， 就 无 法 获取 request2 的 值 。 如 果 需 要 



































那个 值 ， 那 就 必须 依靠 闭 包 ， 或 者 把 它 存储 在 外 部 数据 结构 中 ， 以 便 在 处 理 过 程 的 不 同 阶 


段 使 用 。 


在 这 个 问题 上 ， 协 程 能 发 挥 很 大 的 作用 。 在 协 程 中 ， 如 果 要 连续 执行 3 个 异步 操作 ， 只 需 
使 用 yield3 次 ， 让 事件 循环 继续 运行 。 准 备 好 结果 后 ， 调 用 . oa ee 激活 协 











程 。 对 事件 循环 来 说 ， 这 种 做 法 与 调用 回调 类 似 。 














但 是 对 使 用 协 程式 异步 API 的 用 户 来 











说 ， 情 况 就 大 为 不 同 了 : 3 次 操作 都 在 同一 个 函数 定义 体 中 ， 像 是 ) FARI, 能 在 处 理 过 
程 中 使 用 局 部 变量 保留 整个 任务 的 上 下 文 。 请 看 示例 18-12。 


示例 18-12 ”使 用 协 程 和 yield from 结构 做 异步 编程 ， 无 需 使 用 回调 























@asyncio.coroutine 
def three_stages(request1): 
responsel1 = yield from api_call1(request1) 
# 第 一 步 
request2 = step1(response1) 
response2 = yield from api_call2(request2) 
# 第 二 步 
request3 = step2(response2) 
response3 = yield from api_cal13(request3) 
# 第 三 步 
step3(response3) 





























loop.create_task(three_stages(request1)) # 必须 显 式 调 


度 执行 

















与 前 面 的 JavaScript 和 Python 示例 相 比 ， 示 例 18-12 容易 理解 多 了 : 操作 的 3 个 步 又 依次 
写 在 同一 J 这 样 ， 后 续 处 理 便 于 使 用 前 一 步 的 结果 ; 而 且 提 供 了 上 下 文 ， 能 通过 























异常 来 报告 错误 















































假设 在 示例 18-11 中 处 理 api_call2(request2, stage2) 调用 (stage1 函数 最 后 一 
47) 时 抛 出 了 IO 异常 ， 这 个 异 ' peas 在 stage1 函数 中 捕获 ， 因 为 api_call2 是 异步 














调用 ， 还 未 执行 任何 VO 操作 就 会 立即 返回 。 在 基于 回调 的 API 中， 这 个 问题 的 解决 方法 
一 个 用 于 处 理 操作 成 功 时 返回 的 结果 ， 另 一 个 用 于 处 理 
地 狱 的 危害 程度 就 会 迅速 增 大 。 




















是 为 每 个 异步 调用 注册 两 个 回调 
背 误 。 一 旦 涉及 错误 处 理 ， 回 调 
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ŠH | 









































与 此 相 比 ， 在 示例 18-12 中 ， 那 个 三 步 操 作 的 所 有 异步 调用 都 在 同一 个 函数 中 
(three_stages) ， 如 果 异 步调 用 api_call1、api call2 和 api_ cal13 会 抛 出 异 








常 ， 那 么 可 以 把 相应 的 yield from 表达 式 放 在 try/except 块 中 处 理 异常 。 























这 么 做 比 陷入 回调 地 狱 好 多 了 ， 但 是 我 不 会 把 这 种 方式 条 AER, 毕竟 我 们 还 要 付出 
代价 。 我 们 不 能 使 用 常规 的 函数 ， 必 须 使 用 协 程 ， 而 且 要 习惯 这 是 第 一 
个 障碍 。 只 要 函数 中 有 yield from， 函 数 就 会 变 成 协 程 ， 而 协 程 不 能 直接 调用 ， 即 不 能 
像 示 例 18-11 中 那样 调用 api_calli(request1, stage1) 来 启动 回调 链 。 我 们 必须 使 
用 事件 循环 显 式 排 定 协 程 的 执行 时 间 ， e e 的 协 程 中 使 用 yield 
from 表达 式 把 它 激活 。 如 果 示 例 18-12 没有 最 后 一 

ee HRT ， 那 么 什么 也 不 会 发 生 。 


下 面 举 个 例子 来 实践 这 个 理论 。 
每 次 下 载 及 起 多 次 请 求 


假设 保存 每 面 国旗 时 ， 我 们 不 仅 想 在 文件 名 中 使 用 国家 代码 ， 还 想 加 上 国家 名 称 。 那 么 ， 
下 载 每 面 国旗 时 要 发 起 两 个 请 求 : 一 个 请 求 用 于 获取 国旗 ， 另 一 个 请 求 用 于 获取 图 像 所 在 
目录 里 的 metadata.json 文件 〈 记 录 着 国家 名 称 ) 


在 同一 个 任务 中 发 起 多 个 请 求 ， 这 对 线程 版 脚本 来 说 很 容易 ， 只 需 接连 发 起 两 次 请 求 ， 阻 
塞 线 程 两 次 ， 把 国家 代码 和 国家 名 称 保存 在 局 部 变量 ， 在 保存 文件 时 使 用 。 如 果 想 在 异 
步 脚 本 中 使 用 回调 做 到 这 一 点 ， 你 会 闻 到 回调 地 狱 中 台 来 的 硫磺 味道 ; 国家 代码 和 名 称 要 
放 在 闭 包 中 传 来 传 去 ， 或 者 保存 在 某 个 地 方 ， 在 保存 文件 时 使 用 ， 这 么 做 是 因为 各 个 回调 
在 不 同 的 局 部 上 下 文中 运行 。 协 程 和 yield from 结构 能 缓解 这 个 问题 。 解 决 方法 虽然 没 
有 使 用 多 个 线程 那么 简单 ， 但 是 比 链 式 或 圣 套 回调 易于 管理 。 


示例 18-13 是 使 用 asyncio 包 下 载 国旗 脚本 的 第 3 版 ， 这 一 次 国旗 的 文件 名 中 有 国家 名 
称 。 flags2 asyncio.py 脚本 〔 示 例 18-7 和 示例 18-8) 中 的 download_many 函数 和 
downloader_coro 协 程 没 变 ， 有 变化 的 是 下 面 的 内 容 。 
























































































































































download_one 


现在 ， 这 个 协 程 使 用 yield from 把 职责 委托 给 get_flag HENAN 
get_country 协 程 。 


get_flag 


这 个 协 程 的 大 多 数 代码 移 到 新 添 的 http_get 协 程 中 了 ， 以 便 也 能 在 get_country 
协 程 中 使 用 。 





get_country 

这 个 协 程 获取 国家 代码 相应 的 metadata. json 文件 ， 从 文件 中 读 取 国家 名 称 。 
http_get 

从 Web 获取 文件 的 通用 代码 。 


示例 18-13 flags3_asyncio.py: 再 定义 几 个 协 程 ， 把 职责 委托 出 去 ， 每 次 下 载 国旗 
时 发 起 两 次 请 求 








@asyncio.coroutine 
def http_get(url): 
res = yield from aiohttp.request('GET', url) 
if res.status == 200: 
ctype = res.headers.get('Content-type', '').lower() 
if 'json' in ctype or url.endswith('json'): 
data = yield from res.json() © 
else: 
data = yield from res.read() @ 
return data 


elif res.status == 404: 
raise web.HTTPNotFound( ) 
else: 
raise aiohttp.errors.HttpProcessingError( 
code=res.status, message=res.reason, 
headers=res.headers) 


@asyncio.coroutine 

def get_country(base_url, cc): 
url = '{}/{cc}/metadata.json'.format(base_url, cc=cc.lower()) 
metadata = yield from http_get(url) © 
return metadata['country' ] 


@asyncio.coroutine 

def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
return (yield from http_get(url)) @ 


@asyncio.coroutine 
def download_one(cc, base_url, semaphore, verbose): 
try: 
with (yield from semaphore): © 
image = yield from get_flag(base_url, cc) 
with (yield from semaphore): 
country = yield from get_country(base_url, cc) 
except web.HTTPNotFound: 
status = HTTPStatus.not_found 
msg = ‘not found' 
except Exception as exc: 
raise FetchError(cc) from exc 
else: 
country = country.replace(' ', '_') 
filename = '{}-{}.gif'.format(country, cc) 
loop = asyncio.get_event_loop() 
loop.run_in_executor(None, save_flag, image, filename) 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose and msg: 
print(cc, msg) 


return Result(status, cc) 








@ 如 果 内 容 类 型 中 包含 'json'， 或 者 url 以 .json 结尾 ， 那 么 在 响应 上 调用 .json() 
方法 ， 解 析 响 应 ， 返 回 一 个 Python 数据 结构 一 一 在 这 里 是 一 个 字典 。 


否则 ， 使 用 .read() 方法 读 取 原始 字 节 。 
© metadata 变量 的 值 是 一 个 由 ISON 内 容 构建 的 Python 字典 。 


四 这 里 必须 在 外 层 加 上 括号 ， 如 果 直 接 写 return yield from, Python 解析 器 会 不 明 所 
以 ， 报 告 句 法 错误 。 

O 我 分 别 在 semaphore 控制 的 两 个 with 块 中 调用 get_flag 和 get_country， 因 为 我 
想 尽 量 缩减 下 载 时 间 。 


在 示例 18-13 F, yield from 句法 出 现 了 9 次 。 现 在 ， 你 应 该 已 经 熟知 如 何在 协 程 中 使 
用 这 个 结构 把 职责 委托 给 另 一 个 协 程 ， 而 不 阻塞 事件 循环 。 


问题 的 关键 是 ， 知 道 何 时 该 使 用 yield from， 何 时 不 该 使 用 。 基 本 原则 很 简单 ，yield 
from 只 能 用 于 协 程 和 asyncio.Future 实例 (包括 Task 实例 ) 。 可 是 有 些 API ek 
T> 肆意 混淆 协 程 和 普通 的 函数 ， 例 如 下 一 节 实 现 某 个 服务 器 时 使 用 的 Streamwriter 
Ro 






























































示例 18-13 是 本 书 最 后 一 次 讨论 flags2 系列 示例 。 我 建议 你 自己 运行 那些 示例 ， 有 助 于 
对 HTTP 并 发 客户 端的 运作 方式 建立 直观 认识 。 你 可 以 使 用 -a、-e 和 -1 这 三 个 命令 行 
选项 控制 下 载 的 国旗 数量 ， 还 可 以 使 用 -m 选项 设置 并 发 下 载 数 。 此 外 ， 还 可 以 分 别 使 用 
LOCAL. REMOTE. DELAY 和 ERROR 服务 器 测试 ， 找 出 能 最 大 限度 地 利用 各 个 服务 器 的 吞 
吐 量 的 并 发 下 载 数 。 如 果 想 去 掉 错 误 或 延迟 ， 可 以 修改 vaurien_error_delaysh 脚本 

Chttps://github.com/fluentpython/example-code/blob/master/17- 
futures/countries/vaurien error delaysh) 中 的 设置 。 


客户 端 脚本 到 此 结束 ， 接 下 来 使 用 asyncio 包 编 写 服务 器 。 























18.6 ”使 用 asyncio 包 编写 服务 器 


演示 TCP 服务 器 时 通常 使 用 回 显 服务 器 。 我 们 要 构建 更 好 玩 一 点 的 示例 服务 器 ， 用 于 查 
找 Unicode 字符 ， 分 别 使 用 简单 的 TCP 协议 和 HTTP 协议 实现 。 这 两 个 服务 器 的 作用 是 ， 
让 客户 端 使 用 4.8 节 讨论 过 的 unicodedata 模块 ， 通 过 规范 名 称 查找 Unicode FFF. A 
18-2 展示 了 在 一 个 Telnet 会 话 中 访问 TCP 版 字符 查找 服务 器 所 做 的 两 次 查询 ， 一 次 查询 
国际 象棋 棋子 字符 ， 一 次 查询 名 称 中 包含 “sun 的 字符 。 





eoo 4. bash a 
lontra:charfinder luciano$ telnet localhost 2323 

Trying 127.0.0.1... 

Connected to localhost. 

Escape character is "人 ] ' . 

?> chess black 


U+265A wo BLACK CHESS KING 
U+265B w BLACK CHESS QUEEN 
U+265C x BLACK CHESS ROOK 
U+265D 4 BLACK CHESS BISHOP 
U+265E æ BLACK CHESS KNIGHT 
U+265F 2 BLACK CHESS PAWN 

6 matches for ‘chess black' 

?> sun 

U+2600 = BLACK SUN WITH RAYS 
U+2609 œ SUN 

U+263C x WHITE SUN WITH RAYS 
U+26C5 # SUN BEHIND CLOUD 
U+2E9C = CJK RADICAL SUN 
U+2F47 A KANGXI RADICAL SUN 
U+3230 日 PARENTHESIZED IDEOGRAPH SUN 
U+3290 ® CIRCLED IDEOGRAPH SUN 
U+C21C 会 HANGUL SYLLABLE SUN 
U+1F31E @ SUN WITH FACE 

10 matches for "sun' 

?> AC 


Connection closed by foreign host. 
lontra:charfinder Luciano$ fj 





18-2: 在 一 个 Telnet 会 话 中 访问 tep_charfinderpy 服务 器 一 A 1 “chess 
black” Fi “sun” 


接 下 来 讨论 实现 方式 。 





18.6.1 使 用 asyncio 包 编写 TCP 服 务 器 


下 面 几 个 示例 的 大 多 数 逻 辑 在 charfinder.py 模块 中 ， 这 个 模块 没有 任何 并 发 。 你 可 以 在 命 

令 行 中 使 用 charfinder.py 脚本 查找 字符 ， 不 过 这 个 脚本 更 为 重要 的 作用 是 为 使 用 asyncio 

包 编 写 的 服务 器 提供 支持 。charfinder.py 脚本 的 代码 在 本 书 的 代码 仓库 中 
Chttps://github.com/fluentpython/example-code) 。 











charfinder 模块 读 取 Python 内 建 的 Unicode 数据 库 ， 为 每 个 字符 名 称 中 的 每 个 单词 建立 
索引 ， 然 后 倒 排 索 引 ， 存 进 一 个 字典 。 例 如 ， 在 倒 排 索引 中 ， "SUN ' 键 对 应 的 条 目 是 一 个 
集合 (set) ， 里 面 是 名 称 中 包含 'SUN' 这 个 词 的 10 个 Unicode 字符 。? 倒 排 索引 保存 在 
本 地 一 个 名 为 charfinder index.pickle 的 文件 中 。 如 果 查 询 多 个 单词 ，charfinder 会 计算 
从 索引 中 所 得 集合 的 交集 。 








?在 Python 3.5 中 ， 新 增 了 4 个 名 称 中 包含 'SUN' 的 Unicode 字符 : U+1F323 (WHITE SUN) . U+1F324 (WHITE SUN 
WITH SMALL CLOUD) 、U+1F325 (WHITE SUN BEHIND CLOUD) 和 U+1F326 (WHITE SUN BEHIND CLOUD 
WITH RAIN) 。 一 一 编者 注 














下 面 我 们 把 注意 力 集中 在 响应 图 18-2 中 那 两 个 查询 的 tep_charfinder.py 脚本 上 。 我 要 对 这 
个 脚本 中 的 代码 做 大 量 说 明 ， 因 此 把 它 分 为 两 部 分 ， 分 别 在 示例 18-14 和 示例 18-15 中 列 
出 。 











示例 18-14 tcp charfinder.py: 使 用 asyncio.start_server 函数 实现 的 简易 TCP 
服务 器 ;这 个 模块 余下 的 代码 在 示例 18-15 中 





import sys 
import asyncio 


from charfinder import UnicodeNameIndex @ 


CRLF = b'\r\n' 
PROMPT = b'?> ' 


index = UnicodeNameIndex() @ 


@asyncio.coroutine 
def handle_queries(reader, writer): © 
while True: 
writer.write(PROMPT) # 不 能 使 用 yield from! © 
yield from writer.drain() # 必须 使 用 yield from! © 
data = yield from reader.readline() @ 
try: 
query = data.decode().strip() 
except UnicodeDecodeError: © 
query = '\x@e' 
client = writer.get_extra_info('peername') © 
print('Received from {}: {!r}'.format(client, query)) 四 
































if query: 
if ord(query[:1]) < 32: @ 
break 
lines = list(index.find_description_strs(query)) @ 
if lines: 


writer.writelines(line.encode() + CRLF for line in lines) © 
writer.write(index.status(query, len(lines)).encode() + CRLF) @ 


yield from writer.drain() © 
print('Sent {} results'.format(len(lines))) © 


print('Close the client socket') ©@ 
writer.close() © 























@ UnicodeNameIndex 类 用 于 构建 名 称 索 引 ， 提 供 查询 方法 。 


© 实例 化 UnicodeNameIndex 类 时 ， 它 会 使 用 charfinder_index.pickle XF OURA 
话 ) ， 或 者 构建 这 个 文件 ， 因 此 第 一 次 运行 时 可 能 要 等 几 秒 钟 服务 器 才能 启动 。10 
































10Leonardo Rochael 指 出， 可 以 在 示例 18-15 中 的 main 函数 里 使 用 loop.run_with_executor() 方法 ， 在 另 一 个 线程 
中 构建 Unicode 名 称 索 引 ， 这 样 索 引 构 建 好 之 后 ， 服 务 器 能 立即 开始 接收 请 求 。 他 说 得 对 ， 不 过 这 个 应 用 的 唯一 用 途 
是 查询 索引 ， 因 此 那样 做 没有 多 大 好 人 处。 不 过 ，Leo 建议 的 做 法 是 个 不 错 的 练习 ， 有 兴趣 的 话 你 可 以 去 做 。 

























































































O 这 个 协 程 要 传 给 asyncio.start_server 函数 ， 接 收 的 两 个 参数 是 
asyncio.StreamReader 对 象 科 asyncio.StreamWriter 对 象 。 


O 这 个 循环 处 理会 话 ， 直 到 从 客户 端 收 到 控制 字符 后 退出 。 
O StreamWriter.write 方法 不 是 协 程 ， 只 是 普通 的 函数 ， 这 一 行 代码 发 送 ?> 提示 符 。 


@ StreamWriter.drain 方法 刷新 writer 缓冲 ;因为 它 是 协 程 ， 所 以 必须 使 用 yield 
from 调用 。 





























@ streamReader.readline 方法 是 协 程 ， 返 回 一 个 bytes 对 象 。 








O Telnet 客户 端 发 送 控制 字符 时 ， 可 能 会 抛 出 UnicodeDecodeError 异常 ， 遇 到 这 种 情 
况 时 ， 为 了 简单 起 见 ， 假 装 发 送 的 是 空 字符 。 


© 返回 与 套 接 字 连 接 的 远程 地 址 。 
O 在 服务 器 的 控制 台中 记录 查询 。 
D 如 果 收 到 控制 字符 或 者 空 字符 ， 退 出 循环 。 


@ 返回 一 个 生成 器 ， 产 出 包含 Unicode 码 位 、 真 正 的 字符 和 字符 名 称 的 字符 串 (例如 ， 
U+@039\t9\tDIGIT NINE) ; 为 了 简单 起 见 ， 我 从 中 构建 了 一 个 列表 。 


O 使 用 默认 的 UTF-8 编码 把 lines 转换 成 bytes 对 象 ， 并 在 每 一 行 末尾 添加 回 车 符 和 换 
行 符 ; 注意 ， 参 数 是 一 个 生成 器 表达 式 。 


@ 输出 状态 ,例如 627 matches for ‘digit’. 1! 








a 






































U Python 3.5 中 ， 是 755 matches for 'digit'。 一 一 编者 注 








D 刷新 输出 缓冲 。 
O 在 服务 器 的 控制 台中 记录 响应 。 
O 在 服务 器 的 控制 台中 记录 会 话 结束 。 


D 关闭 streamWriter 流 。 









































handle_queries 协 程 的 名 称 是 复数 ， 因 为 它 启动 交互 式 会 话 后 能 处 理 各 个 客户 端 发 来 的 
多 次 请 求 。 


注意 ， 示 例 18-14 中 所 有 的 VO 操作 都 使 用 bytes 格式 。 因 此 ， 我 们 要 解码 从 网 络 中 收 到 
还 要 编码 发 出 的 字符 串 。Python 3 默认 使 用 的 编码 是 UTF-83， 这 里 就 隐 式 使 用 
了 这 个 编码 。 


注意 一 点 ， 有 些 VO 方法 是 协 程 ， 必 须 由 yield from 驱动 ， 而 另 一 些 则 是 普通 的 函数 。 
例如 ，StreamWriter.write 是 普通 的 函数 ， 我 们 假定 它 大 多 数 时 候 都 不 会 阻塞 ， 因 为 
它 把 数据 写 入 缓冲 ， 而 刷新 缓冲 并 真正 执行 IO 操作 的 StreamWriter.drain 是 协 

程 ，StreamReader.readline 也 是 协 程 。 写 作 本 书 时 ，asyncio 包 的 API 文档 有 重大 的 
改进 ， 明 确 标识 出 了 哪些 方法 是 协 程 。 


示例 18-15 接续 示例 18-14， 列 出 这 个 模块 的 main 函数。 


示例 18-15 tcp_charfinder.py〔 接 续 示 例 18-14) : main 函数 创建 并 销毁 事件 循环 和 
套 接 字 服 务 器 

































































def main(address='127.0.0.1', port=2323): @ 
port = int(port) 
loop = asyncio.get_event_loop() 
server_coro = asyncio.start_server(handle_ queries, address, port, 
loop=loop) @ 
server = loop.run_until_complete(server_coro) © 
host = server.sockets[@].getsockname() @ 
print('Serving on {}. Hit CTRL-C to stop.'.format(host)) © 
try: 
loop.run_forever() © 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 


print('Server shutting down.') 

server.close() @ 
loop.run_until_complete(server.wait_closed()) © 
loop.close() © 


if _name == ' main_': 
main(*sys.argv[1:]) @ 








@ 调用 main 函数 时 可 以 不 传 入 参数 。 


© asyncio.start_server 协 程 运行 结束 后 ， 返 回 的 协 程 对 象 返回 一 个 
asyncio.Server 实例 ， 即 一 个 TCP 套 接 字 服务 器 。 


© 驱动 server_coro 协 程 ， 启 动 服务 器 (server) 。 
O 获取 这 个 服务 器 的 第 一 个 套 接 字 的 地 址 和 端口 ， 然 后 .……. 
@...... 在 服务 器 的 控制 台中 显示 出 来 。 这 是 这 个 脚本 在 服务 器 的 控制 台中 显示 的 第 一 个 




















@ 运行 事件 循环 ，main 函数 在 这 里 阻塞 ， 直 到 在 服务 器 的 控制 台中 按 CTRL-C 键 才 会 关 
闭 。 


O 关闭 服务 器 。 


和 server.wait_closed() 方法 返回 一 个 期 物 ， 调 用 loop.run_until_complete 方 
法 ， 运 行 期 物 。 


O 终止 事件 循环 。 


O 这 是 处 理 可 选 的 命令 行 参数 的 简便 方式 : 展开 sys .argv[1:]， 传 给 main 函数 ， 未 指 
定 的 参数 使 用 相应 的 默认 值 。 

JER, run_until_complete 方法 的 参数 是 一 个 协 程 (start_server 方法 返回 的 结果 ) 
或 一 个 Future 对 象 (server .wait_closed 方法 返回 的 结果 ) 。 如 果 传 给 
run_until_complete 方法 的 参数 是 协 程 ， 会 把 协 程 包装 在 Task 对 象 中 。 


仔细 查看 tcp_charfinder.py 脚本 在 服务 器 控制 台中 生成 的 输出 (如 示例 18-16) ， 更 易于 到 
解 脚本 中 控制 权 的 流动 。 


示例 18-16 tcp_charfinderpy: 这 是 图 18-2 所 示 会 话 在 服务 器 端的 输出 
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$ python3 tcp_charfinder.py 

Serving on ('127.0.0.1', 2323). Hit CTRL-C to stop. @ 
Received from ('127.@.0.1', 62910): ‘chess black' @ 
Sent 6 results 

Received from ('127.@.0.1', 62910): 'sun' © 

Sent 10 results 

Received from ('127.0.0.1', 62910): '\xee' © 

Close the client socket © 








@ 这 是 main 函数 的 输出 。 
四 handle_ queries 协 程 中 那个 while 循环 第 一 次 迭代 的 输出 。 
© 那个 while 循环 第 二 次 过 代 的 输出 。 了 车 




















1 在 Python 3.5 中 是 Sent 14 results。 参 见 本 小 节 开 头 的 编者 注 。 一 一 编者 注 























@ 用户 按 下 CTRL-C 键 ， 服务器 收 到 控制 字符 ， 关 闭会 话 。 
O 客户 端 套 接 字 关 闭 了 ， 但 是 服务 器 仍 在 运行 ， 准 备 为 其 他 客户 端 提 供 服 务 。 


JER, main 函数 几乎 会 立即 显示 Serving on... 消息 ， 然 后 在 调用 
loop.run_forever() 方法 时 阻塞 。 在 那 一 点 ， 控 制 权 流动 到 事件 循环 中 ， 而 且 一 直 待 
在 那里 ， 不 过 偶尔 会 回 到 handle_queries 协 程 ， 这 个 协 程 需要 等 待 网 络 发 送 或 接收 数 
据 时 ， 控 制 权 又 交还 事件 循环 。 在 事件 循环 运行 期 间 ， 只 要 有 新 客户 端 连 接 服务 器 就 会 启 
动 一 个 handle_queries 协 程 实例 。 因 此 ， 这 个 简单 的 服务 器 可 以 并 发 处 理 多 个 客户 






















































































端 。 出 现 KeyboardInterrupt 异常 ， 或 者 操作 系统 把 进程 杀 死 ， 服 务 器 会 关闭 。 


tcp_charfinder.py 脚本 利用 asyncio 包 提 供 的 高 层 流 

API Chttps://docs.python.org/3/library/asyncio-streamhtml) ， 有 现成 的 服务 器 可 用 ， 所 以 我 

们 只 需 实现 一 个 处 理 程 序 〈 普 通 的 回调 或 协 程 ) 。 此 外 ，asyncio 包 受 Twisted 框架 中 抽 

象 的 传送 和 协议 启发 ， 还 提供 了 低层 传送 和 协议 API。 详 情 请 参见 asyncio 包 的 文档 
(https://docs.python.org/3/library/asyncio-protocol.html) ， 里 面 有 一 个 使 用 低层 API 实现 的 

TCP 回 显 服务 器 。 


下 一 节 实 现 HTTP 版 字符 查找 服务 器 。 





18.6.2 ”使 用 aiohttp 包 编写 Web 服 务 器 


asyncio 版 国旗 下 载 示 例 使 用 的 aiohttp ESIR am HITP， 我 就 使 用 这 个 库 实 
现 了 http_charfinder.py 脚本。 图 18-3 是 这 个 简易 服务 器 的 Web 界面 ， 显 示 搜 索 “cat 
face” 表 情 符号 得 到 的 结果 。 








\ A 
009 j Charfinder x \ + x 








(¢ ) @ locathost:8888/?query=cat+face œŒ | (Q Search A LAO = 
~ 


Examples: bismillah, black, Braille, cat, chess, circled, digit, dot, Ethiopic, face, hexagram, Malayalam, mark, operator, Roman, symbol 





cat face || find | 10 matches for 'cat face’ 


U+1F431 [fj] CAT FACE 

U+1F638 局 GRINNING CAT FACE WITH SMILING EYES 
U+1F639 最 CAT FACE WITH TEARS OF JOY 

U+1F63A && SMILING CAT FACE WITH OPEN MOUTH 


U+1F63B &% SMILING CAT FACE WITH HEART-SHAPED EYES 
U+1F63C & CAT FACE WITH WRY SMILE 

U+1F63D &§ KISSING CAT FACE WITH CLOSED EYES 
U+1F63E 入 POUTING CAT FACE 

U+1F63F &§ CRYING CAT FACE 

U+1F640 Ñ WEARY CAT FACE 





18-3: 浏览 器 窗口 中 显示 在 http_ charfinderpy 服务 器 中 搜索 “cat face” 得 到 的 结果 


Be 有 些 浏览 器 显示 Unicode 字符 的 效果 比 其 他 浏览 器 好 。 图 18-3 中 的 截图 在 
OSX 版 Firefox 浏览 器 中 截取 ， 我 在 Safari 中 也 得 到 了 相同 的 结果 。 但 是 ， 运 行 在 同 
一 台 设 备 中 的 最 新 版 Chrome 和 Opera 却 不 能 显示 猫 脸 等 表情 符号 。 不 过 其 他 搜索 结 
果 〔 例 如 “chess”) 正常 ， 因 此 这 可 能 是 OS 义 版 Chrome 和 Opera 的 字体 问题 。 


我 们 先 分 析 http_charfinder.py 脚本 中 最 重要 的 后 半 部 分 : 启动 和 关闭 事件 循环 与 HTTP HR 
务 器 。 参 见 示 例 18-17。 








示例 18-17 http_charfinder.py: main 和 init 函数 


@asyncio.coroutine 
def init(loop, address, port): © 
app = web.Application(loop=loop) @ 
app.router.add_route('GET', '/', home) © 
handler = app.make_handler() @ 
server = yield from loop.create_server(handler, 
address, port) © 
return server.sockets[0].getsockname() © 


def main(address="127.0.0.1", port=8888): 
port = int(port) 
loop = asyncio.get_event_loop() 
host = loop.run_until_complete(init(loop, address, port)) @ 
print('Serving on {}. Hit CTRL-C to stop.'.format(host) ) 
try: 
loop.run_forever() ® 
except KeyboardInterrupt: # 按 CTRL-C 键 
pass 
print('Server shutting down.') 
loop.close() © 


if _name == "main 
main(*sys.argv[1:]) 








@ init 协 程 产 出 一 个 服务 器 ， 交 给 事件 循环 驱动 。 
© aiohttp.web.Application 类 表示 Web 应 用 .…… 


四 通过 路 由 把 URL 模式 映射 到 处 理 函 数 上 ; 这 里 ， 把 GET / 路 由 映射 到 home MAK 
上 【参见 示例 18-18) 。 





















































@ app.make_handler 方法 返回 一 个 aiohttp.web.RequestHandler 实例 ， 根 据 app 
对 象 设置 的 路 由 处 理 HTTP 请 求 。 


@ create_server 方法 创建 服务 器 ， 以 handler 为 协议 处 理 程序 ， 并 把 服务 器 绑 定 在 指 
定 的 地 址 Caddress) 和 端口 (port) 上 。 


@ 返回 第 一 个 服务 器 套 接 字 的 地 址 和 端口 。 

人 @ 运行 init 函数 ， 启 动 服务 器 ， 获 取 服 务 器 的 地 址 和 端口 。 

O 运行 事件 循环 ， 控 制 权 在 事件 循环 手 上 时 ，main 函数 会 在 这 里 阻塞 。 
O 关闭 事件 循环 。 


我 们 已 经 熟悉 了 asyncio 包 的 API， 现 在 可 以 对 比 一 下 示例 18-17 与 前 面 的 TCP 示例 
〈 见 示例 18-15) ， 看 它们 创建 服务 器 的 方式 有 何不 同 。 


在 前 面 的 TCP 示例 中 ， 服 务 器 通过 main 函数 中 的 下 面 两 行 代码 创建 并 排 定 运行 时 间 : 

























































































server_coro = asyncio.start_server(handle_ queries, address, port, 
loop=loop) 


server = loop.run_until_complete(server_coro) 








在 这 个 HTTP 示例 中 ，init 函数 通过 下 述 方式 创建 服务 器 : 





server = yield from loop.create_server(handler, 
address, port) 














但 是 init 是 协 程 ， 驱 动 它 运行 的 是 main 函数 中 的 这 一 行 : 


host = loop.run_until_complete(init(loop, address, port)) 


asyncio.start_server 函数 和 loop.create_server 方法 都 是 协 程 ， 返 回 的 结果 都 是 
asyncio.Server 对 象 。 为 了 启动 服务 器 并 返回 服务 器 的 引用 ， 这 两 个 协 程 都 要 由 他 人 了 驱 
动 ， 完 成 运行 。 在 TCP 示例 中 ， 做 法 是 调用 
loop.run_until_complete(server_coro), #4 server_coro 是 
asyncio.start_server 函数 返回 的 结果 。 在 HTTP 示例 中 ，create_server 方法 在 
init 协 程 中 的 一 个 yield from 表达 式 里 调用 ， 而 init 协 程 则 由 main 函数 中 的 
loop.run_until_complete(init(...)) 调用 驱动 。 


我 提 到 这 一 点 是 为 了 强调 之 前 讨论 过 的 一 个 基本 事实 : 只 有 驱动 协 程 ， 协 程 才能 做 事 ， 而 
驱动 asyncio.coroutine 装饰 的 协 程 有 两 种 方法 ， 要 么 使 用 yield from， 要 么 传 给 
asyncio 包 中 某 个 参数 为 协 程 或 期 物 的 函数 ， 例如 run_until_complete. 


示例 18-18 列 出 home 函数 。 根 据 这 个 HTTP 服务 器 的 配置 ，home 函数 用 于 处 理 /〈 根 ) 
URL。 














































































































示例 18-18 http_charfinder.py: home 函数 





def home(request): © 
query = request.GET.get('query', '').strip() @ 
print('Query: {!r}'.format(query)) © 
if query: @ 
descriptions = list(index.find_descriptions (query) ) 
res = '\n'.join(ROW_TPL.format(**vars(descr) ) 
for descr in descriptions) 
msg = index.status(query, len(descriptions) ) 


else: 
descriptions = [] 
res = '' 
msg = ‘Enter words describing characters. ' 


html = template. format(query=query, result=res, © 
message=msg) 

print('Sending {} results'.format(len(descriptions))) © 

return web.Response(content_type=CONTENT TYPE, text=html) @ 





| 
@@ 一 个 路 由 处 理 函 数 ， 参 数 是 一 个 aiohttp.web. Request 实例 。 
O 获取 查询 字符 串 ， 去 掉 首 尾 的 空白 。 

O 在 服务 器 的 控制 台中 记录 查询 。 


O 如 果 有 查询 字符 串 ， 从 索引 “index) 中 找到 结果 ， 使 用 HTML 表格 中 的 行 泻 染 结 
果 ， 把 结果 赋值 给 res 变量 ， 再 把 状态 消息 赋值 给 mg 变量 。 


© 38% HTML 页 面 。 
O 在 服务 器 的 控制 台中 记录 响应 。 
@ 构建 Response 对 象 ， 将 其 返回 。 


注意 ，home 不 是 协 程 ， 既 然 定 义 体 中 没有 yield from 表达 式 ， 也 没 必要 是 协 程 。 在 
aiohttp 包 的 文档 中 ，add_route 方法 的 条 目 
(http://aiohttp.readthedocs.org/en/v0.14.4/web_reference.html#aiohttp.web.UrlDispatcher.add_rc 
下 面 说 道 , “如 果 处 理 程序 是 普通 的 函数 ， 在 内 部 会 将 其 转换 成 协 程 ”。 


示例 18-18 中 的 home 函数 虽然 简单 ， 却 有 一 个 缺点 。home 是 普通 的 函数 ， 而 不 是 协 程 ， 
这 一 事实 预示 着 一 个 更 大 的 问题 ， 我 们 需要 重新 思考 如 何 实现 Web 应 用 ， 以 获得 高 并 
发 。 下 面 来 分 析 这 个 问题 。 


18.6.3 ”更 好 地 文 持 并 发 的 智能 客户 端 


示例 18-18 中 的 home 函数 很 像 是 Django 或 Flask 中 的 视图 函数 ， 实 现 方式 完全 没有 考虑 
异步 : 获取 请 求 ， 从 数据 库 中 读 取 数据 ， 然 后 构建 响应 ， 这 染 完 整 的 HIML 页 面 。 在 这 
个 示例 中 ， 存 储 在 内 存 中 的 UnicodeNameIndex 对 象 是 “数据 库 ?。 但 是 ， 对 真正 的 数据 
库 来 说 ， 应 该 好 步 访 问 ， 人 否则 在 等 待 数据库 查询 结果 的 过 程 中 ， 事 件 循 环 会 阻塞 。 例 
如 ，aiopg 包 Chttps://aiopg.readthedocs.org/en/stable/) 提供 了 一 个 异步 PostgreSQL 驱动 ， 
与 asyncio GRA; 这 个 包 支 持 使 用 yield from 发 送 查 询 和 获取 结果 ， 因 此 视图 函数 
的 表现 与 真正 的 协 程 一 样 。 


除了 防止 阻塞 调用 之 外 ， 高 并 发 的 系统 还 必须 把 复杂 的 工作 分 成 多 步 ， 以 保持 敏捷 。 
http_charfinder.py 服务 器 表明 了 这 一 点 : 如 果 搜 索 “cjk”， 得 到 的 结果 是 75 821 个 中 文 、 H 
文 和 韩文 象形 文字 。3 此 时 ，home 函数 会 返回 一 个 5.3MB 的 HTML 文档 ， 显 示 一 个 有 
75 821 行 的 表格 。 












































































































































8 这 正 是 CIK 表示 的 意思 : 不 断 增加 的 中 文 、 日 文 和 韩文 字符 。 以 后 的 Python 版 本 支持 的 CJK 象形 文字 数量 可 能 会 
比 Python 3.4 多 。 








我 在 自己 的 设备 中 使 用 命令 行 HTTP 客户 端 curl 访问 架设 在 本 地 的 http_charfinder.py 服 
务 器 ， 查 询 “cjk”，2 秒 钟 后 获得 响应 。 浏 览 器 要 布局 包含 这 么 大 一 个 表格 的 页 面 ， 用 的 时 
间 会 更 长 。 当 然 ， 大 多 数 查 询 返 回 的 响应 要 小 得 多 : 查询 “braille* 返 回 256 行 结果 ， 页 面 























大 小 为 19KB， 在 我 的 设备 中 用 时 0.017 秒 。 可 是 ， 如 果 服 务 器 要 用 2 秒 钟 处 理 “cjk” 查 
询 ， 那 么 其 他 所 有 客户 端 都 至 少 要 等 2 秒 一 一 这 是 不 可 接受 的 。 


避免 响应 时 间 太 长 的 方法 是 实现 分 页 : 首次 至 多 返回 《比如 说 ) 200 行 ， 用 户 点 击 链接 或 
滚动 页 面 时 再 获取 更 多 结果 。 如 果 碍 看 本 书 代 码 仓库 

Chttps://github.com/fluentpython/example-code) 中 的 charfinder.py 模块 ， 你 会 发 现 
UnicodeNameIndex.find_descriptions 方法 有 两 个 可 选 的 参数 一 start 和 stop, 
这 是 偏 移 值 ， 用 于 支持 分 页 。 因 此 ， 我 们 可 以 返回 前 200 个 结果 ， 当 用 户 想 查看 更 多 结果 
时 ， 再 使 用 AJAX 或 WebSockets 发 送 下 一 批 结果 。 


实现 分 批发 送 结 果 所 需 的 大 多 数 代码 都 在 浏览 器 这 一 端 ， 因 此 Google 和 所 有 大 型 互联 网 
公司 都 大 量 依赖 客户 端 代码 构建 服务 : 智能 的 异步 客户 端 能 更 好 地 使 用 服务 器 资源 。 


虽然 智能 的 客户 端 甚至 对 老式 Django 应 用 也 有 帮助 ， 但 是 要 想 真 正 为 这 种 客户 端 服务 ， 
我 们 需要 全 方位 支持 异步 编程 的 框架 ， 从 处 理 HTTP 请 求 和 响应 到 访问 数据 库 ， 全 都 支持 
jee 如 采 四 实现 实时 服务 ， 例如 游戏 和 以 WebSockets 支持 的 媒体 流 ， 那 就 尤其 应 该 这 
么 做 。 






















































































在 “杂谈 ”中 我 会 进一步 说 明 这 个 趋势 。 











这 里 留 一 个 练习 给 读者 : 改进 http_charfinder.py 脚本 ， 添 加 下 载 进度 条 。 此 外 还 有 一 个 附 
加 题 : 实现 Twitter 那样 的 “无 限 滚动 "。 做 完 这 个 练习 后 ， 我 们 对 如 何 使 用 asyncio 包 做 
异步 编程 的 讨论 就 结束 了 。 


18.7 本 章 小 结 
本 章 介 绍 了 在 Python 中 做 并 发 编程 的 一 种 全 新 方式 ， 这 种 方式 使 用 yield from, WFE 


期 物 和 asyncio 事件 循环 。 首 先 ， 我 们 分 析 了 两 个 简单 的 示 伪 


























仔细 对 比 了 使 用 threading 模块 和 asyncio 包 处 理 并 发 的 异同 。 


然后 ， 本 章 讨 论 了 asyncio. Future 2 


两 个 旋转 指针 脚本 ， 


类 的 细节 ， 重 点 讲述 它 对 yield from 的 支持 ， 


及 与 协 程 和 asyncio.Task 类 的 关系 。 接 下 来 分 析 了 asyncio 版 国旗 下 载 脚本 。 
然后 ， 本 章 分 析 了 Ryan Dahl 对 VO 延迟 所 做 的 统计 数据 ， 还 说 明了 阻塞 调用 的 影响 。 尽 








管 有 些 函 数 必然 会 阻塞 但 是 为 了 让 程序 持续 运行 ， 











程 ， 或 者 异步 调用 一 一 后 者 以 回调 或 协 程 的 形式 实现 。 





其 实 ， 异步 库 依赖 于 低层 线程 (直至 内 核 级 线程 》， 但 是 这 些 库 的 用 户 无 需 创建 线程 ， 也 
无 需 知道 用 到 了 So ee 在 应 用 中 ， 我 们 只 需 确保 没有 阻塞 的 代码 ， 事 件 

















有 两 种 解决 方案 可 用 : 使 用 多 个 线 





























循环 会 在 背后 处 理 并 发 。 异 步 系统 能 避免 用 户 级 线程 的 开销 ， 这 是 它 能 
更 多 并 发 连接 的 主要 原因 。 


之 后 ， 我 们 又 回 到 下 载 国旗 的 脚本 ， 添 加 进度 条 并 处 理 错 误 。 这 需要 大 幅度 重 构 ， 特 别 是 



























































比 多 线程 系统 管理 

















要 把 asyncio.wait 函数 换 成 asyncio.as_completed 函数 ， 因 此 不 得 不 把 





download_many 函数 的 大 多 数 功能 移 到 新 添 的 downloader_coro 协 程 中 ， 这 样 我 们 才 
能 使 用 yield from 从 asyncio.as_completed 函数 生成 的 多 个 期 物 中 逐个 获得 结果 。 


使 用 loop.run_in_executor 方法 把 阻塞 的 作业 (例如 保存 文 


然后 ， 本 章 说 明了 如 何 
件 ) 委托 给 线程 池 做 。 


2 本 章 讨论 人 了 如 何 




















使 用 协 程 解决 回调 的 主要 问题 ， 执 行 分 成 多 步 的 异步 任务 时 丢失 上 














， 以 及 缺少 处 理 错 





误 所 需 的 上 下 文 。 





然后 又 举 了 一 个 例子 ， 


yield from 避免 所 谓 的 回调 地 狱 。 如 果 忽 略 yield from 关键 字 ， 使 用 yield from 结 


构 实 现 异 步调 用 的 多 步 








在 下 载 国旗 图 像 的 同时 获取 国家 名 称 ， 以 此 说 明 如 何 结合 协 程 和 








过 程 看 起 来 类 似 于 顺序 执行 的 代码 。 








本 章 最 后 两 个 示例 是 使 用 asyncio 包 实 现 的 TCP 和 HTTP 服务 器 ， 用 于 按 名 称 搜索 
Unicode 字符 。 在 分 析 HTTP 服务 器 的 最 后 ， 我 们 讨论 了 客户 端 JavaScript 对 服务 器 端 提 




















大 的 HTML 页 面 。 


供 高 并 发 支持 的 重要 性 。 使 用 JavaScript， 客 户 端 可 以 按 需 发 起 小 型 请 








求 ， 而 不 用 下 载 较 


18.8 延伸 阅读 


Python 核心 开发 者 Nick Coghlan 在 2013 年 1 月 对 “PEP 3156—Asynchronous IO Support 
Rebooted: the‘asyncio’ Module” (https://www.python.org/dev/peps/pep-3156/) 草案 评论 如 
F: 


在 这 个 PEP HIFKE A AE 185 RA E FR E 2G LAPS API: 
(1)f.add_done_callback(...) 


(2) 协 程 中 的 yield from f《〈 期 物 运行 结束 后 恢复 协 程 ， 期 物 要 么 返回 结果 ， 要 人 么 
抛 出 合适 的 异常) 


此 刻 ， 这 两 个 API 深 埋 在 众多 的 API 中 ， 而 它们 是 理解 核心 事件 循环 层 之 上 各 种 事 
物 交互 方式 的 关键 。15 
























































15 摘 自 2013 年 1 月 20 日 发 布 在 python-ideas 邮件 列表 中 的 一 个 消息 Chttps://mail.python.org/pipermail/python-ideas/2013- 
January/018791.html) ， 在 这 个 消息 中 ，Cosghlan 对 PEP 3156 做 出 了 上 述评 论 。 
































PEP 3156 的 作者 Guido van Rossum 没有 采纳 Coghlan 的 建议 。 实 现 PEP 3156 的 初 

HH, asyncio 包 的 文档 虽然 十 分 详细 ， 但 对 用 户 并 不 友好 。asyncio 包 的 文档 有 9 个 rst 
文件 ，128KB， 将 近 71 页 。 在 标准 库 文档 中 ， 只 有 “Built-in Types” — 3 
(https://docs.python.org/3/library/stdtypes.html) 有 这 么 长 ， 而 那 一 章 内 容 众 多 ， 涵 盖 了 数 
字 类 型 、 序 列 类 型 、 生 成 器 、 映 射 、 集 合 、bool、 上 下 文 管理 器 ， 等 等 。 


asyncio 包 的 文档 大 部 分 是 在 讲 概念 和 API， 其 中 夹杂 着 有 用 的 示意 图 和 示例 ， 不 过 特别 
实用 的 一 节 是 “18.5.11. Develop with asyncio” (https://docs.python.org/3/library/asyncio- 
dev.html) , 16 其 中 说 明了 极为 重要 的 使 用 模式 。asyncio 包 的 文档 需要 用 更 多 的 内 容 来 
说 明 如 何 使 用 asyncio。 















































16 目 前 是 : 18.5.9. Develop with asyncio。 一 一 编者 注 








asyncio 包 很 新 ， 已 出 版 的 书 中 少 有 涉及 。 我 发 现 只 有 Jan Palach 写 的 Parallel 
Programming with Python (Packt 出 版 社 ，2014 年 ) 一 书 中 有 一 章 讲 到 了 asyncio， 可 惜 
那 一 章 很 短 。 


不 过 ， 有 很 多 关于 asyncio 的 精彩 演讲 。 我 觉得 最 棒 的 是 Brett Slatkin 在 蒙特 利 尔 PyCon 
2014 大 会 上 发 表 的 演讲 ， 题 为 “Fan-In and Fan-Out: The Crucial Components of 

Concurrency” (https://speakerdeck.com/pycon2014/fan-in-and-fan-out-the-crucial-components- 
of-concurrency-by-brett-slatkin〉， 副 标题 是 “Why do we need Tulip? (a.k.a., PEP 3156— 
asyncio)”( 视 频 : https://www.youtube.com/watch?v=CWmq-jtkemY) 。 在 30 分 钟 内 ， 
Slatkin 实现 了 一 个 简单 的 Web 爬虫 示例 ， 强 调 了 asyncio 包 的 正确 用 法 。 喘 为 观众 的 
Guido van Rossum 提 到 ， 为 了 引荐 asyncio 包 ， 他 也 写 了 一 个 Web EH. Guido 写 的 代码 
不 依赖 aiohttp 包 ， 只 用 到 了 标准 库 。Slatkin 还 写 了 一 篇 见解 深刻 的 文章 ， 题 
“Python's asyncio Is for Composition, Not Raw 















































Performance” Chttp://www.onebigfluke.com/2015/02/asyncio-is-for-composition.html) 。 


Guido van Rossum 自己 的 几 个 演讲 也 是 必 看 的 ， 包 括 在 PyCon US 2013 上 所 做 的 主题 演讲 
(http://pyvideo.org/video/1667/keynote-1) ， 以 及 在 LinkedIn 公司 
Chttps://www.youtube.com/watch?v=aurOB4qYuFM) 和 Twitter 大 学 
(https://www.youtube.com/watch?v=1coLC-MUCJc) 所 做 的 演讲 。 此 外 ， 还 推荐 Saul Ibarra 

Corretgé 的 演讲 “A Deep Dive into PEP-3156 and the New asyncio Module”[ (JK 
Chttp://www.slideshare.net/saghul/asyncio) ， 视 频 Chttps://www.youtube.com/watch? 

v=MSIL2RGKYyY) ]。 








在 PyCon US 2013 大 会 上 ，Dino Viehland 做 了 一 场 演讲 ， 题 为 “Using futures for async GUI 
programming in Python 3.3” Chttp://pyvideo.org/video/1762/using-futures-for-async-gui- 
programming-in-python) ， 说 明 如 何 把 asyncio 包 集 成 到 Tkinter 事件 循环 中 。Viehland 展 
示 了 在 另 一 个 事件 循环 之 上 实现 asyncio.AbstractEventLoop 接口 的 重要 部 分 是 多 么 
容易 。 他 的 代码 使 用 Tulip 编写 ， 这 是 asyncio 包 添 加 到 标准 库 中 之 前 的 名 称 。 我 修改 了 
他 的 代码 ， 以 便 支持 Python 3.4 中 的 asyncio 包 。 我 重 构 后 的 新 版 在 GitHub 中 
Chttps://github.com/fluentpython/asyncio-tkinter) 。 


Victor Stinner [asyncio 包 的 核心 贡献 者 ，asyncio 包 的 移植 版 

Trollius (http://trollius.readthedocs.org) 的 作者 ] 经 常 更 新 相关 资源 的 链接 列表 一 一 “The 
new Python asyncio module aka‘tulip’” (http://haypo-notes.readthedocs.org/asyncio.html) . Jt 
外 ， 收 集 asyncio 资源 的 还 有 Asyncio.org 网 站 Chttp://asyncio.org/) 和 GitHub 中 的 aio- 
libs 组 织 Chttps: //github.¢ conVaio-libs) ， 在 这 两 个 网 站 中 能 找到 PostgreSQL. MySQL 和 多 
种 NoSQL 数据 库 的 异步 驱动 。 我 没有 测试 过 这 些 驱动 ， 不 过 写作 本 书 时 ， 这 些 项 目 好 像 
十 分 活跃 。 


Web 服务 将 成 为 asyncio 包 的 重要 使 用 场景 。 你 的 代码 有 可 能 要 依赖 Andrew Svetlov 领 

衡 开 发 的 aiohttp FE Chttp://aiohttp.readthedocs.org/en/) 。 你 可 能 还 想 架 设 环境 ， 测试 错 

误 处 理 代码 ， 在 这 方面 ，Alexis Métaireau 和 Tarek ae Vaurien (“ 混 沌 TCP 代 

理 ”，http://vaurien.readthedocs.org/en/1.8/) 极其 有 用 。Vaurien 是 为 Mozilla Services 项 目 
Chttps://mozilla-services.github.io/) 开发 的 ， 用 于 在 程序 与 后 端 服务 器 《〈 例 如 ， 数 据 库 和 

Web 服务 提供 方 ) 之 间 的 TCP 流量 中 引入 延迟 和 随机 错误 。 










































































杂 
至 尊 循 环 


有 很 长 一 段 时 间 ， KBB tre 高 手 开发 网 络 应 用 时 喜欢 使 用 异步 编程， 但 是 总 
遇 到 一 个 问题 司 不 兼容 。Ryan Dahl 提 到 ，Twisted 是 Node.js 的 灵 
来 源 之 一 ; 而 在 Python a Tornado 拥护 使 用 协 程 做 面向 事件 编程 。 


在 JavaScript 社区 里 还 有 争论， 有 些 人 推 党 使 用 简单 的 回调 ， 而 有 些 人 提倡 使 用 与 回 
调处 于 竞争 地 位 的 各 种 高 层 抽 象 方式 。Node.js 早期 版 本 的 API 使 用 的 是 Promise 对 
象 〈 类 似 于 Python 中 的 期 物 ) ， 但 是 后 来 Ryan Dahl 决定 统一 只 用 回调 。James 
Coglan 认为 ，Nodejs 在 这 一 点 上 错过 了 大 好 良机 

Chttps://blog.jcoglan.com/2013/03/30/callbacksare-imperative-promises-are-functional- 
nodes-biggest-missed-opportunity/) 。 






































Python 社区 的 争论 已 经 结束 : asyncio 包 添 加 到 标准 库 中 之 后 ， 协 程 和 期 物 被 确定 为 
符合 Python 风格 的 异步 代码 编写 方式 。 此 外 ，asyncio 包 为 异步 期 物 和 事件 循环 定 
义 了 标准 接口 ， 为 二 者 提供 了 实现 参考 。 


正如 “Python 之 禅 ”所 说 : 
肯定 有 一 种 一 一 通常 也 是 唯一 一 种 一 一 最 佳 的 解决 方案 
不 过 这 并 不 容易 找到 ， 因 为 你 不 是 Python 之 父 


或 许 变 成 荷兰 人 才能 理解 yield from 吧 。17 对 我 这 个 巴西 人 来 说 ， 一 开始 并 不 易 
于 理解 ， 不 过 一 段 时 间 之 后 我 理解 了 。 


更 重要 的 是 ， 设 计 asyncio 包 时 考虑 到 了 使 用 外 部 包 蔡 换 自 映 的 事件 循环 ， 因 此 才 
A asyncio.get_event_loop fll set_event_loop 函数 二 者 是 抽象 的 事件 循环 
策略 API (https://docs.python.org/3/library/asyncio-eventloops.html#event-loop-policies- 
and-the-default-policy) 的 一 部 分 。 







































































Tornado 已 经 有 实现 asyncio.AbstractEventLoop 接口 的 类 

AsyncIOMainLoop http://tornado.readthedocs.org/en/latest/asyncio.html) ， 因 此 在 

同一 个 事件 循环 中 可 以 使 用 这 两 个 库 运行 异步 代码 。 此 外 ，Quamash 项 目 
(https://pypi.python.org/pypi/Quamash/〉 也 很 有 趣 ， 它 把 asyncio 包 集成 到 Qt 事件 循 

环 中 ， 以 便 使 用 PyQt 或 PySide 开发 GUI 应用。 我 只 是 举 两 个 例子 ， 说 明 asyncio 

包 能 把 面向 事件 的 包 集成 在 一 起 。 


智能 的 HTTP 客户 端 ， 例 如 单 页 Web 应 用 〈 如 Gmail) 或 智能 手机 应 用 ， 需 要 快速 、 
轻 量 级 的 响应 和 推送 更 新 。 鉴 于 这 样 的 需求 ， 服 务 器 端 最 好 使 用 异步 框架 ， 不 要 使 用 
传统 的 Web 框架 CH Django) 。 传 统 框架 的 目的 是 泻 染 完 整 的 HTML 网 页 ， 而 且 不 
支持 异步 访问 数据 库 。 


WebSockets 协议 的 作用 是 为 始终 连接 的 客户 端 (例如 游戏 和 流 式 应 用 )〉 提供 实时 更 
新 ， 因 此 ， 高 并 发 的 异步 服务 器 要 不 间断 地 与 成 百 上 和 干 个 客户 端 交 互 。asyncio 包 
的 架构 能 很 好 地 支持 WebSockets， 而 且 至 少 有 两 个 库 已 经 在 asyncio 包 的 基础 上 实 
现 了 WebSockets 协议 : Autobahn|Python (http://autobahn.ws/python/〉 和 
WebSockets (http://aaugustin.github.io/websockets/) 。 


“实时 Web” 的 整体 发 展 趋势 迅猛 ， 这 是 Node.js 需求 量 不 断 攀 升 的 主要 因素 ， 也 是 
Python 生态 系统 积极 向 asyncio 靠拢 的 重要 原因 。 不 过 ， 要 做 的 事 还 有 很 多 。 为 了 
便于 入 门 ， 我 们 要 在 标准 库 中 提供 异步 HTTP 服务 器 和 客户 端 API， 异 步 数据 库 API 
3.0 Chttps://www.python.org/dev/peps/pep-0249/) , 18 以 及 使 用 asyncio 包 构 建 的 新 
数据 库 驱 动 。 


与 Node.js 相 比 ， 含 有 asyncio 包 的 Python 3.4 最 大 的 优势 是 Python 本 身 : Python 语 
言 设计 良好 ， 使 用 协 程 和 和 yield from 结构 编写 的 异步 代码 比 JavaScript 采用 的 古老 
回调 易于 维护 。 而 我 们 最 大 的 劣势 是 库 ，Python 自 带 了 很 多 库 ， 但 是 那些 库 不 支持 异 
步 编 程 。Node.js 库 的 生态 系统 丰富 ， 完 全 建构 在 异步 调用 之 上 。 但 是 ，Python 和 
Node. js 都 有 一 个 问题 ， 而 Go 和 Erlang 从 一 开始 就 解决 了 这 个 问题 : 我 们 编写 的 代 




























































































码 无 法 轻松 地 利用 所 有 可 用 的 CPU 核心 。 


Python 标准 化 了 事件 循环 接口 ， 还 提供 了 一 个 异步 库 ， 这 是 一 大 进步 ， 而 且 只 有 我 们 
仁慈 的 独裁 者 能 在 众多 深入 人 心 且 高 质量 的 替代 方案 中 选择 这 种 方式 。 具 体 实现 时 ， 
他 咨询 了 多 个 重要 的 Python 异步 框架 的 作者 ， 其 中 受 Glyph Lefkowitz (Twisted 的 主 
要 开发 者 ) 的 影响 最 深 。 如 果 你 想 知 道 为 什么 asyncio.Future 类 与 Twisted 中 的 
Deferred 类 不 同 ， 一 定 要 阅读 Guido 在 Python-tulip 讨论 组 中 发 布 的 一 篇 文章 ， 题 
为 “Deconstructing Deferred” Chttps://groups.google.com/forum/#!msg/python-tulip/ut4vTG- 
08k8/PWZZUXX9HYIJ) > Guido 对 Twisted 这 个 最 古老 也 是 最 大 的 Python 异步 框架 充 
满 敬 意 ， 在 python-twisted 讨论 组 中 讨论 设计 方案 时 ， 他 甚至 说 ,， “What Would 
Twisted Do (WWTD) ”. 19 


幸好 有 Guido van Rossum 打头 阵 ， 让 Python 以 更 好 的 姿态 应 对 当前 的 并 发 挑战 。 若 
想 精 通 asyncio 包 ， 一 定 要 下 一 看 功夫 。 可 是 ， 如 果 你 计划 使 用 Python 编写 并 发 网 
络 应 用 ， 那 就 去 寻求 至 尊 循环 (the One Loop) : 


至 尊 循 环 驭 众生 ， 至 尊 循 环 寻 众生 ， 
至 尊 循 环 引 众生 ， 普 照 众 生 欣 欣 荣 。 





















































17Python 之 父 Guido van Rossum 是 荷兰 人 。 一 一 译 者 注 





18 应 该 是 : PEP 249 一 Python Database API Specification v2.0。 一 一 编者 注 

















1 出 自 Guido F 2015 年 1 月 29 日 发 布 的 消息 Chttps//groups. google.com/forum/#!msg/python-tulip/pP Mwts- 


O 


CvUcw/eloX_n8FSPwJ) ， 然 后 Glyph 立即 回复 了 这 一 消息 。 












































元 编程 


第 19 章 动态 属性 和 特性 


特性 至 关 重 要 的 地 方 在 于 ， 特性 的 存在 使 得 开发 首 可 以 非常 安全 并 且 确定 可 行 地 将 公 
共 数 据 属性 作为 类 的 公共 接口 的 一 部 分 开放 出 来 。 















































Alex Martelli 
Python 贡献 者 和 图 书 作 者 









































1 o 技术 手册 (第 2 版 ) 》 第 101 页 。〔 该 书 中 文 版 把 “property”* 译 为 属性 ， 这 里 改 为 “特性 ”"， 其 他 内 容 与 原来 的 
翻译 译 者 注 ) 


















































在 Python 中 ， 数 据 的 属性 和 处 理 数据 的 方法 统称 属性 Cattribute) 。 其 实 ， 方 法 只 是 可 调 
用 的 属性 。 除 了 这 二 者 之 外 ， 我 们 还 可 以 创建 特性 (property) ， ee ee 
下 ， 使 用 存 取 方 法 〈 即 读 值 方法 和 设 值 方法 ) 修改 数据 属性 。 这 与 统一 访问 原则 相符 


人 由 存储 还 是 计算 实现 的 ， 一 个 模块 提供 的 所 有 服务 都 应 该 通过 统一 的 方式 
用 。 

































































Bertrand Meyer, Object-Oriented Software Construction, 2E, p. 57. 
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除了 特性 ，Python 还 提供 了 丰富 的 API， 用 于 控制 属性 的 访问 权限 ， 以 及 实现 动态 属 
使 用 点 号 访问 属性 时 《如 obj.attr) ，Python 解释 器 会 调用 特殊 的 方法 (如 

_ getattr fil__setattr_) 计算 属性 。 用 户 自己 定义 的 类 可 以 通过 __getattr__ 
方法 实现 “虚拟 属性 ”， 当 访问 不 存在 的 属性 时 (如 obj.no_such_attribute) ， 即 时 计 
算 属性 的 值 。 


动态 创建 属性 是 一 种 元 编程 ， 框 架 的 作者 经 常 这 么 做 。 然 而 ， 在 Python 中 ， 相 关 的 基础 
技术 十 分 简单 ， 甚至 在 日 常 的 数据 转换 任务 中 也 能 用 到 。 下 面 以 这 种 
任务 开启 本 章 的 话题 
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19.1 使 用 动态 属性 转换 数据 


在 接 下 来 的 几 个 示例 中 ， 我 们 要 使 用 动态 属性 处 理 O'Reilly 为 OSCON 2014 大 会 提供 的 
JSON 格式 数据 源 。 示 例 19-1 是 那个 数据 源 中 的 4 个 记录 。 












































3 关于 这 个 数据 源 及 其 使 用 规则 ， 请 阅读 “DIY: OSCON schedule” 一 文 

(http//conferences.oreilly.com/oscon/oscon2014/public/content/schedulefeed) 。 那 个 ISON 文件 有 744KB， 我 写作 本 书 时 
还 在 网 上 (httpy/www.oreilly.com/pub/sc/osconfeed〉。 本 书 代 码 仓库 中 的 oscon-schedule/data/ 目录 里 有 个 副本 ,文件 名 
为 osconfeed. json (https;//github.conyfluentpython/example-code/tree/master/19-dyn-attr-prop/oscon/data ) 。 


























示例 19-1 osconfeed.json 文件 中 的 记录 示例 ; 节 略 了 部 分 字段 的 内 容 





{ "Schedule": 
{ "conferences": [{"serial": 115 }], 
"events": [ 
{ "serial": 34505, 
"name": "Why Schools Don’t Use Open Source to Teach Programming", 
"event type": "40-minute conference session", 


"time_start": "2014-07-23 11:30:00", 
"time_stop": "2014-07-23 12:10:00", 
"venue_serial": 1462, 
"description": "Aside from the fact that high school programming...", 
"website url": "http://oscon.com/oscon2014/public/schedule/detail/34505", 
"speakers": [157509], 
"categories": ["Education"] } 

]， 

"speakers": [ 

{ "serial": 1575@9, 

"name": "Robert Lefkowitz", 
"photo": null, 
"url": "http://sharewave.com/", 
"position": "CTO", 
"affiliation": "Sharewave", 
"twitter": "sharewaveteam", 
"bio": "Robert “r@éml” Lefkowitz is the CTO at Sharewave, a startup..." } 

]， 

"venues": [ 

{ "serial": 1462, 

"name": "F151", 
"category": "Conference Venues" } 








那个 JSON 源 中 有 895 条 记录 ， 示 例 19-1 只 列 出 了 4 条。 可 以 看 出 ， 整 个 数据 集 是 一 个 
JSON 对 象 ， 里 面 有 一 个 键 ， 名 为 "Schedule"; 这 个 键 对 应 的 值 也 是 一 个 映像 ， 有 4 个 
键 : "conferences", "events", "speakers" 和 "venues"。 这 4 个 键 对 应 的 值 都 是 
一 个 记录 列表 。 在 示例 19-1 中 ， 各 个 列表 中 只 有 一 条 记录 。 然 而 ， 在 完整 的 数据 集中 ， 
列表 中 有 成 百 上 干 条 记录 。 Ait, "conferences" 键 对 应 的 列表 中 只 有 一 条 记录 ， 如 上 

述 示 例 所 示 。 这 4 个 列表 中 的 每 个 元 素 都 有 一 个 名 为 "serial" 的 字段 ， 这 是 元 素 在 各 个 
列表 中 的 唯一 标识 符 。 




































































我 编写 的 第 一 个 脚本 只 用 于 下 载 那个 OSCON 数据 源 。 为 了 避免 浪费 流量 ， 我 会 先 检查 本 
地 有 没有 副本 。 这 么 做 是 合理 的 ， 因 为 OSCON 2014 大 会 已 经 结束 ， 数 据 源 不 会 再 更 
新 。 


示例 19-2 没 用 到 元 编程 ， 几 乎 所 有 代码 的 作用 可 以 用 这 一 个 表达 式 概 
括 : json.1load(fp)。 不 过 ， 这 样 足以 处 理 那 个 数据 集 了 。osconfeed.1oad 函数 会 在 
后 面 几 个 示例 中 用 到 。 


示例 19-2 osconfeed.py: 下 载 osconfeed.json (doctest 在 示例 19-3 中 ) 













































































from urllib.request import urlopen 
import warnings 

import os 

import json 


URL = 'http://www.oreilly.com/pub/sc/osconfeed' 
JSON = 'data/osconfeed.json' 


def load(): 
if not os.path.exists(JSON): 
msg = ‘downloading {} to {}'.format(URL, JSON) 
warnings.warn(msg) © 
with urlopen(URL) as remote, open(JSON, 'wb') as local: @ 
local.write(remote.read()) 


with open(JSON) as fp: 
return json.load(fp) © 





























@ 如 果 需 要 下 载 ， 就 发 出 提醒 。 


© 在 with 语句 中 使 用 两 个 上 下 文 管理 器 (从 Python 2.7 和 Python 3.1 起 允许 这 么 做 ) ， 
分 别 用 于 读 取 和 保存 远程 文件 。 


© json. load 函数 解析 ISON 文件 ， 返 回 Python 原生 对 象 。 在 这 个 数据 源 中 有 这 几 种 数 
据 类 型 : dict、1ist、str flint. 


有 了 示例 19-2 中 的 代码 ， 我 们 可 以 审查 数据 源 中 的 任何 字段 ， 如 示例 19-3 所 示 。 


示例 19-3 osconfeed.py: 示例 19-2 的 doctest 









































>>> feed = load() @ 

>>> sorted(feed['Schedule'].keys()) @ 

['conferences', ‘events', 'speakers', ‘venues’ ] 

>>> for key, value in sorted(feed['Schedule'].items()): 
print('{:3} {}'.format(len(value), key)) © 


1 conferences 
494 events 
357 speakers 
53 venues 
>>> feed['Schedule']['speakers'][-1]['name'] @ 





"Carina C. Zona’ 

>>> feed[ 'Schedule']['speakers'][-1]['serial'] © 
141590 

>>> feed['Schedule']['events'][40]['name' ] 

"There *Will* Be Bugs' 

>>> feed[ 'Schedule' ][ 'events'][40]['speakers'] © 
[3471, 5199] 








Q feed 的 值 是 一 个 字典 ， 里 面 嵌 套 着 字典 和 列表 ， 存 储 着 字符 串 和 整数 。 
四 Jit "Schedule" 键 中 的 4 个 记录 集合 

O 显示 各 个 集合 中 的 记录 数量 。 

@ 深入 典 套 的 字典 和 列表 ， 获 取 最 后 一 个 演讲 者 的 名 字 。 

O 获取 那 位 演讲 者 的 编号 。 

O 每 个 事件 都 有 一 个 "speakers ' 字段 ， 列 出 0 个 或 多 个 演讲 者 的 编号 。 


19.1.1 使 用 动态 属性 访问 JSON 类 数据 


示例 19-2 十 分 简单 ， 不 过 ，feed['Schedule']['events'][46]['name'] 这 种 句法 很 
元 长。 在 JavaScript 中 ， 可 以 使 用 feed.Schedule. lad aad .name 获取 那个 值 。 在 
Python 中 ， 可 以 实现 一 个 近似 字典 的 类 (网 上 有 大 量 EE 实现)“， 达 到 同样 的 效果 。 我 自己 
实现 了 FrozenJSON 类 ， 比 大 多 数 实现 都 简单 ， 因 为 只 {支持 读 取 ， 即 只 能 访问 数据 。 不 
过 ， 这 个 类 能 递归 ， 自 动 处 理 舱 套 的 映射 和 列表 。 





























4 最 常 提 到 的 一 个 实现 是 AttrDict Chttps://pypi.python.org/pypiattrdict) ， 还 有 一 个 实现 能 快速 创建 从 套 的 映射 一 一 
addict Chttps://pypi.python.org/pypi/addict) 。 





示例 19-4 演示 FrozenJSON 类 的 用 法 ， 源 代码 在 示例 19-5 中 。 








示例 19-4 ”示例 19-5 定义 的 FrozenJSON 类 能 读 取 属性 ， 如 name， 还 能 调用 方 
法 ， 如 .keys() 和 .items() 








>>> from osconfeed import load 

>>> raw_feed = load() 

>>> feed = FrozenJSON(raw_feed) © 

>>> len(feed.Schedule.speakers) @ 

357 

>>> sorted(feed.Schedule.keys()) © 

['conferences', ‘events', ‘speakers', ‘venues’ ] 

>>> for key, value in sorted(feed.Schedule.items()): @ 
print('{:3} {}'.format(len(value), key)) 


1 conferences 
494 events 
357 speakers 
53 venues 
>>> feed.Schedule.speakers[-1].name @ 





"Carina C. Zona’ 

>>> talk = feed.Schedule.events[40] 
>>> type(talk) © 

<class ‘'explore@.FrozenJSON' > 

>>> talk.name 

"There *Will* Be Bugs' 

>>> talk.speakers @ 

[3471, 5199] 

>>> talk.flavor © 

Traceback (most recent call last): 


KeyError: ‘flavor’ 











O HARE FMA RAMA raw_feed， 创 建 一 个 FrozenJSON 实例 。 








© FrozenJSON 实例 能 使 用 属性 表示 法 遍历 








素数 量 。 














PRA FHL, 这里， 我 们 获取 演讲 者 列表 的 元 





O 也 可 以 使 用 底层 字典 的 方法 ， 例 如 .keys()， 获 取 记 录 集 合 的 名 称 








O 使 用 items() 方法 获取 各 个 记录 集合 及 其 内 容 ， 然 后 显示 各 个 记录 集合 中 的 元 素数 











加 列表， 例如 feed.Schedule.speakers， 仍 是 列表 ， 但 是 ， 如 果 里 面 的 元 素 是 映射 ， 


会 转换 成 FrozenJSON 对 象 。 
@ events 列表 中 的 40 号 元 素 是 








一 个 JSON 对 象 ， 现 在 则 变 成 一 个 FrozenJSON 实例 。 


O 事件 记录 中 有 一 个 speakers 列表 ， 列 出 演讲 者 的 编号 。 














FrozenJSON 类 的 关键 是 ”getattr _ 方法 。 


SO KeyError 异常 ， 











而 不 是 通常 抛 出 的 AttributeError & 





我 们 在 10.5 节 的 Vector 示例 中 用 过 这 个 





方法 ， 那 时 用 于 通过 字母 获取 Vector 对 象 的 分 量 〈 例 如 v.x、v.y、v.z) 。 我 们 要 记 住 











重要 的 一 点 ， 仅 当 无 法 使 用 常规 的 方式 获取 属性 〈 即 在 实例 、 类 或 超 类 中 找 不 到 指定 的 属 
_ getattr 





性 ) ， 解释 器 才 会 调用 特殊 的 














方法 。 






































示例 19-4 的 最 后 一 行 揭露 了 这 个 实现 的 一 个 小 问题 : 理论 上 上， 尝试 读 取 不 存在 的 属性 应 


该 抛 出 AttributeError 异常 。 








_getattr 方法 的 代码 量 增加 了 一 倍 ， 


























其 实 ， 一 开始 我 对 这 个 异常 做 了 处 理 ， 但 是 

















教学 ， 后 来 我 把 那 部 分 代码 去 掉 了 。 


如 示例 19-5 所 示 ，FrozenJSON 类 只 有 两 个 方法 (__init__#l__getattr__) 和 一 个 
实例 属性 __data。 因 此 ， 尝 试 获取 其 他 属性 会 触发 解释 器 调用 getattr__ 方法 。 这 




















而 且 偏 离 了 我 最 想 展 示 的 重要 逻辑 ， 因 此 为 了 

















个 方法 首先 查看 self._ data 字典 有 没有 指定 名 称 的 属性 (不 是 键 〉， 这 样 












































FrozenJSON 实例 便 可 以 处 理 字 典 的 所 有 方法 ， 例 如 把 items 方法 委托 给 








self. data.items() 方法 。 如 果 self. 
__getattr__ 方法 以 那个 名 称 为 键 ， 











_ data 没有 指定 名 称 的 属性 ， 那 么 
从 self. 














_ data 中 获取 一 个 元 素 ， 传 给 














FrozenJSON. build 方法 。 这 样 就 能 深入 ISON BHR AREY, EHX build 把 





每 一 层 杠 套 转换 成 一 个 FrozenJSON 实例 。 


示例 19-5 ”explore0.py: 把 一 个 JSON 数据 集 转换 成 一 个 嵌 套 着 FrozenJSON 对 象 、 


列表 和 简单 类 型 的 FrozenJSON 对 象 


from collections import abc 


class FrozenJSON: 
个 只 读 接口 ， 使 用 属性 表示 法 访问 JSON 类 对 象 





















































def _ init__(self, mapping): 
self. data = dict(mapping) © 


def _ getattr__(self, name): @ 
if hasattr(self._ data, name): 
return getattr(self. data, name) © 
else: 


@classmethod 
def build(cls, obj): © 
if isinstance(obj, abc.Mapping): © 
return cls(obj) 
elif isinstance(obj, abc.MutableSequence): @ 
return [cls.build(item) for item in obj] 
else: O 
return obj 





return FrozenJSON.build(self. data[name]) @ 











@ 使 用 mapping 参数 构建 一 个 字典 。 ee (1) 确保 传 入 的 是 字典 (或 者 
FI 


四 仅 当 没有 指定 名 称 (name) 的 属性 时 才 调 用 getattr__ 方法 。 








是 能 转换 成 字典 的 对 象 ) ; (2) 安全 起 见 ， 创 建 一 个 


















































@ 如 果 name 是 实例 属性 _data 的 属性 ， 返 回 那 个 属性 。 调 用 keys 等 方法 就 是 通过 这 

















种 方式 处 理 的 。 














O 否则， 从 self. data 中 获取 name 键 对 应 的 元 素 ， 返 回调 用 FrozenJSON.build() 











方法 得 到 的 结果 。 








5 这 一 行 中 的 self. data[name] 表达 式 可 能 抛 出 KeyError 异常 。 我 们 应 该 处 理 这 个 异常 ， 抛 出 AttributeError 








异常 ， 因 为 这 才 是 __getattr_ ”方法 应 该 抛 出 的 异常 种 类 。 建 议 勤 








O 这 是 一 个 备 选 构造 方法 ，@classmethod 装饰 器 经 

















每 上 








读者 实现 错误 处 理 代码， 当 作 一 个 练习 。 








AP 





EXA FA 


@ 如 果 obj 是 映射 ， 那 就 构建 一 个 FrozenJSON 对 象 。 
@ 如 果 是 MutableSsequence 对 象 ， 必 然 是 列表 ,“ 因此 ， 我 们 把 obj 中 的 每 个 元 素 递归 








地 传 给 .build() 方法 ， 构 建 一 个 列表 。 












































6 数据 源 是 ISON 格式 ， 而 在 ISON 中 ， 只 有 字典 和 列表 是 集合 类 型 。 

















@ 如 果 既 不 是 字典 也 不 是 列表 ， 那 么 原封 不 动 地 返回 元 素 。 
注意 ， 我 们 没有 缓存 或 转换 原始 数据 源 。 在 迭代 数据 源 的 过 程 中 ， 媒 套 的 数据 结构 不 断 被 
转换 成 FrozenJSON 对 象 。 这 么 做 没 问题 ， 因 为 数据 集 不 大 ， 而 且 这 个 脚本 只 用 于 访问 或 
转换 数据 。 

从 随机 源 中 生成 或 仿效 动态 属性 名 的 脚本 都 必须 处 理 一 个 问题 : 原始 数据 中 的 键 可 能 不 适 
合作 为 属性 名 。 下 一 节 处 理 这 个 问题 。 

19.1.2 “处理 无 效 属 性 名 


FrozenJSON 类 有 个 缺陷 : 没有 对 名 称 为 Python 关键 字 的 属性 做 特殊 处 理 。 比 如 说 像 下 面 
这 样 构建 一 个 对 象 : 



































pmi 













































































>>> grad = FrozenJSON({'name': 'Jim Bo', 'class': 1982}) 





此 时 无 法 读 取 grad.class 的 值 ， 因 为 在 Python 中 class 是 保留 字 : 








>>> grad.class 
File "<stdin>", line 1 

grad.class 

Nn 





SyntaxError: invalid syntax 


当然 ， 可 以 这 么 做 : 








>>> getattr(grad, ‘class') 
1982 




















但 是 ，FrozenJSON 类 的 目的 是 为 了 便于 访问 数据 ， 因 此 更 好 的 方法 是 检查 传 给 
FrozenJSON. init_ _ 方法 的 映射 中 是 否 有 和 键 的 名 称 为 关键 字 ， 如 果 有 ， 那 么 在 键 名 后 
加 上 _， 然 后 通过 下 述 方式 读 取 : 


>>> grad.class_ 
1982 


为 此 ， 我 们 可 以 把 示例 19-5 中 只 有 一 行 代码 的 _ init ”方法 改 成 示例 19-6 中 的 版 本 。 
示例 19-6 explorel.py: 在 名 称 为 Python 关键 字 的 属性 后 面 加 上 _ 






































def _ init__(self, mapping): 
self. data = {} 
for key, value in mapping.items(): 
if keyword.iskeyword(key): @ 
key += '_' 
self.__data[key] = value 








@ keyword.iskeyword(...) 正 是 我 们 所 需 的 函数 ， 为 了 使 用 它 ， 必 须 导 入 keyword 模 
Bh; 这 个 代码 片段 没有 列 出 导入 语句 。 


如 果 ISON 对 象 中 的 键 不 是 有 效 的 Python 标识 符 ， 也 会 遇 到 类 似 的 问题 : 

















>>> x = FrozenJSON({'2be':'or not'}) 
>>> x.2be 
File "<stdin>", line 1 


x.2be 
八 





SyntaxError: invalid syntax 

















这 种 有 问题 的 键 在 Python 3 中 易于 检测 ， 因 为 str 类 提供 的 s.isidentifier() 方法 能 

根据 语言 的 语法 判断 s 是 否 为 有 效 的 Python 标识 符 。 但 是 ， 把 无 效 的 标识 符 变 成 有 效 的 

属性 名 却 不 容易 。 对 此 ， 有 两 个 简单 的 解决 方法 ， 一 个 是 抛 出 异常 ， 另 一 个 是 把 无 效 的 键 
换 成 通用 名 称 ， 例 如 attr_6、attr_1， 等 等 。 为 了 简单 起 见 ， 我 将 忽略 这 个 问题 。 


对 动态 属性 的 名 称 做 了 一 些 处 理 之 后 ， 我 们 要 分 析 FrozenJSON 类 的 另 一 个 重要 功能 

类 方法 build 的 逻辑 。 这 个 方法 把 藤 套 结构 转换 成 FrozenJSON 实例 或 FrozenJSON 实 

ae 因此 getattr ”方法 使 用 这 个 方法 访问 属性 时 ， 能 为 不 同 的 值 返回 不 同类 型 
Xt Ro 


除了 在 类 方法 中 实现 这 样 的 逻辑 之 外 ， 还 可 以 在 特殊 的 __new_ ”方法 中 实现 ， 如 下 一 贡 
所 述 。 


19.1.3 使 用 _new 方法 以 灵活 的 方式 创建 对 象 


我 们 通常 把 _init__ 称 为 构造 方法 ， 这 是 从 其 他 语言 借鉴 过 来 的 术语 。 其 实 ， 用 于 构建 
实例 的 是 特殊 方法 new: 这 是 个 类 方法 (使 用 特殊 方式 处 理 ， 因 此 不 必 使 用 
@classmethod 装饰 器 ) ， 必 须 返 回 一 个 实例 。 返 回 的 实例 会 作为 第 一 个 参数 〈 即 

self) 传 给 ”init _ 方法 。 因 为 调用 ”init ”方法 时 要 传 入 实例 ， 而 且 禁 止 返回 任何 
值 ， 所 以 ”init ”方法 其 实 是 “初始 化 方法 "。 真 正 的 构造 方法 是 __new__。 我 们 几乎 不 
需要 自己 编写 new _ ”方法 ， 因 为 从 object 类 继承 的 实现 已 经 足够 了 。 


刚才 说 明 的 过 程 ， 即 从 new 方法 到 ”init _ 方法 ， 是 最 常见 的 ， 但 不 是 唯一 
A. _ new 方法 也 可 以 返回 其 他 类 的 实例 ， 此 时 ， 解 释 器 不 会 调用 init _ 方法 。 

























































































































































































也 就 是 说 ，Python 构建 对 象 的 过 程 可 以 使 用 下 述 伪 代 码 概 括 : 








# 构建 对 象 的 伪 代 码 
def object_maker(the_class, some_arg): 
new_object = the class. new (some arg) 
if isinstance(new object, the class): 
the class. init (new object, some_arg) 
return new object 








# 下 述 两 个 语句 的 作用 基本 等 效 
x = Foo('bar') 
x = object_maker(Foo, 'bar') 


























示例 19-7 是 FrozenJSON 类 的 另 一 个 版 本 ， 把 之 前 在 类 方法 build 中 的 逻辑 移 到 了 


__new 


示例 19-7 explore2.py: 使 用 __new__ FEAR build 方法 ， 构 建 可 能 是 也 可 能 





方法 中 。 





是 FrozenJSON 实例 的 新 对 象 


def 


def 


def 





@__new。_ 是 类 方法 ， 第 一 个 参数 是 类 本 身 ， 余 下 的 参数 与 _init_ 方法 





from collections import abc 


class FrozenJSON: 


























ARR 接 




















， 使 用 属性 表示 法 访问 JSON 类 对 象 








__new_(cls, arg): © 
if isinstance(arg, abc.Mapping): 
return super()._new_(cls) @ 
elif isinstance(arg, abc.MutableSequence) : 
return [cls(item) for item in arg] 
else: 
return arg 


__init__(self, mapping): 
self. data = {} 
for key, value in mapping.items(): 
if iskeyword(key) : 
key += '_' 
self. data[key] = value 


_getattr_ (self, name): 
if hasattr(self.__data, name): 

return getattr(self. data, name) 
else: 


return FrozenJSON(self.__data[name]) @ 





过 没有 self. 





© 





© 





YEs 


new 


RAWIT NERAK new WY 
法 ， 把 唯一 的 参数 设 为 Frozen]JSON。 


new ”方法 中 余下 的 代码 与 原先 的 build 方法 完全 一 样 。 


四 之 前 ， 这 里 调用 的 是 FrozenJSON.build 方法 ， 现 在 只 需 调用 FrozenJSON 构造 方 

















方法 的 第 一 个 参数 是 类 ， 


FrozenJSON. _ new __ 方法 中 ，super(). _new_ (cls) 表达 式 会 调用 
object. _new__(FrozenJSON), m object 类 构建 的 实例 其 实 是 FrozenJSON 实例 ， 
即 那个 实例 的 class _ 属性 存储 的 是 FrozenJSON 类 的 引用 。 不 过 ， 真 正 的 构建 操作 








KE 。 这 里 调用 的 是 object 基 类 的 
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33) 








因为 创建 的 对 象 通常 是 那个 类 的 实例 。 所 以 ， 在 











不 














解释 器 调用 C 语言 实现 的 object. new ”方法 执行 。 


OSCON 的 JSON 数据 源 有 一 个 明显 的 缺点 : 索引 为 40 的 事件 ， 即 名 为 'There *Will* 
Be Bugs' 的 那个 ， 有 两 位 演讲 者 ，3471 和 5199， 但 却 不 容易 找到 他 们 ， 因 为 提供 的 是 
编号 ， 而 Schedule. speakers 列表 没有 使 用 编号 建立 索引 。 此 外 ， 每 条 事件 记录 中 都 有 
venue_serial 字段 ， 存 储 的 值 也 是 编号 ， 但 是 如 果 想 找到 对 应 的 记录 ， 那 就 要 线性 搜索 
= ae 列表 。 接 下 来 的 任务 是 ， 调 整数 据 结构 ， 以 便 自动 获取 所 链接 的 记 
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19.1.4 ”使 用 shelve 模 块 调整 OSCON 数 据 源 的 结构 


标准 库 中 有 个 shelve EF) 模块 ， 这 名 字 听 起 来 怪 怪 的 ， 可 是 如 果 知 道 pickle Ci 

K) 是 Python 对 象 序列 化 格式 的 名 字 ， 还 是 在 那个 格式 与 对 象 之 间 相 互 转换 的 某 个 模块 

的 名 字 ， 就 会 觉得 以 shelve 命名 是 合理 的 。 泡 菜 坛 子 摆 放 在 架子 上 ， 因 此 shelve 模块 
提供 了 pickle 存储 方式 。 


shelve.open 高 阶 函数 返回 一 个 shelve.Shelf 实例 ， 这 是 简单 的 键 值 对 象 数据 库 ， 背 
后 由 dbm 模块 支持 ， 具 有 下 述 特点 。 


e shelve.Shelf 是 abc.MutableMapping 的 子 类 ， 因 此 提供 了 处 理 映 射 类 型 的 重要 































































































。 此 外 ，shelve.Shelf 类 还 提供 了 几 个 管理 IO 的 方法 ， 如 sync 和 close; 它 也 是 
一 个 上 下 文 管理 器 。 


。 只 要 把 新 值 赋 予 键 ， 就 会 保存 键 和 值 。 












































。 键 必须 是 字符 串 。 
。 值 必须 是 pickle 模块 能 处 理 的 对 象 。 


shelve (https://docs.python.org/3/library/shelve.html) ~ dbm Chttps://docs.python.org/3/librar: 
和 pickle {Rik Chttps://docs.python.org/3/library/pickle.html) 的 详细 用 法 和 注意 事项 参见 

文档 。 现 在 值得 关注 的 是 ，shelve 模块 为 识别 OSCON 的 日 程 数据 提供 了 一 种 简单 有 效 

的 方式 。 我 们 将 从 JSON 文件 中 读 取 所 有 记录 ， 将 其 存在 一 个 shelve.Shelf 对 象 中 ， 键 
昌 记 录 类 型 和 编号 组 成 〈 例 如 ， "event .33956 ' BK 'speaker.3471') ， 而 值 是 我 们 即 

将 定义 的 Record 类 的 实例 。 


实例 19-8 是 schedulel.py 脚本 的 doctest， 使 用 shelve 模块 处 理 数据 源 。 若 想 以 交互 式 方 
式 测试 ， 要 执行 python -i schedulel.py 命令 运行 脚本 ， 启 动 加 载 了 schedulet $ 
块 的 控制 台 。 主 要 工作 由 load db 函数 完成 : 调用 osconfeed.load 方法 (在 示例 19-2 
中 定义 ) 读 取 JSON 数据 ， 把 通过 db 传 入 的 Shelf 对 象 中 的 各 条 记录 存储 为 一 个 个 
Record 实例 。 这 样 处 理 之 后 ， 获 取 演 讲 者 的 记录 就 容易 了 ， 例 如 speaker = 

db[ 'speaker.3471']. 
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示例 19-8 测试 schedulel.py HIZ ILH] 19-9) 提供 的 功能 


>>> import shelve 

>>> db = shelve.open(DB_NAME) @ 
>>> if CONFERENCE not in db: @ 
3 load_db(db) © 


>>> speaker = db['speaker.3471'] @ 

>>> type(speaker) © 

<class 'schedule1.Record'> 

>>> speaker.name, speaker.twitter © 
(‘Anna Martelli Ravenscroft', ‘annaraven' ) 
>>> db.close() @ 


@ shelve.open 函数 打开 现 有 的 数据 库 文件 ， 或 者 新 建 一 个 。 


四 判断 数据 库 是 否 填充 的 简便 方法 是 ， 检 查 某 个 已 知 的 键 是 否 存在 ;这 里 检查 的 键 是 
conference.115， 即 conference 记录 (只 有 一 个 ) 的 键 。7 






























































7 也 可 以 使 用 len(db) 判断 ， 不 过 ， 如 果 是 大 型 dbm 数据 库 ， 那 就 很 耗费 时 间 。 
O 如 果 数 据 库 是 空 的 ， 那 就 调用 10ad_db(db)， 加 载 数 据 。 
@ 获取 一 条 speaker 记录 。 
O 它 是 示例 19-9 中 定义 的 Record 类 的 实例 。 
O 各 个 Record 实例 都 有 一 系列 自 定 义 的 属性 ， 对 应 于 底层 ISON 记录 里 的 字段 。 


一 定 要 记得 关闭 shelve.Shelf 对 象 。 如 果 可 以 ， 使 用 with 块 确保 Shelf 对 象 会 关 
闭 。 
























































Bdoctest 有 个 突出 的 弱点 : 无 法 正确 地 设置 资源 并 保证 将 
在 示例 A-12 中 。 











其 销毁 。 我 使 用 py .test 为 schedulel.py 脚本 写 了 很 多 测试 ， 




















schedulel.py 脚本 的 代码 在 示例 19-9 中 。 


示例 19-9 schedulel.py: 访问 保存 在 shelve.Shelf 对 象 里 的 OSCON 日 程 数 据 








import warnings 


import osconfeed @ 


DB_NAME = ‘data/schedule1_db' 
CONFERENCE = ‘conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self. dict .update(kwargs) @ 


def load_db(db): 
raw_data = osconfeed.load() © 





warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): @ 
record_type = collection[:-1] © 
for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) QO 
record[ 'serial'] = key 
db[key] = Record(**record) © 








O 加 载 示例 19-2 中 的 osconfeed.py 模块 。 

四 这 是 使 用 关键 字 参 数 传 入 的 属性 构建 实例 的 常用 简便 方式 〈 详 情 参 见 下文 ) 。 

O 如 果 本 地 没有 副本 ， 从 网 上 下 载 ISON 数据 源 。 

OREA Chill 'conferences'、'events'， 等 等 ) 。 

@ record_type 的 值 是 去 掉 尾部 's' 后 的 集合 名 〈( 即 把 'events' 变 成 "event ' ) 。 
@ 使 用 record type 和 'serial' 字段 构成 key. 

@ 把 ‘serial’ 字段 的 值 设 为 完整 的 键 。 
© 构建 Record 实例， 存储 在 数据 库 中 的 key 键 名 下 。 

Record. init_ _ 方法 展示 了 一 个 流行 的 Python 技巧 。 我 们 知道 ， 对 象 的 _ dict 属 
性 中 存储 着 对 象 的 属性 一 一 前 提 是 类 中 没有 声明 _slots 属性， 如 9.8 节 所 述 。 


EMRAN dict 属性 ， 把 值 设 为 一 个 映射 ， 能 快速 地 在 那个 实例 中 创建 一 堆 属 
性 。 










































































?顺便 说 一 下 ，2001 年 Alex Martelli 在 “The simple but handy‘collector of a bunch of named stuff’ class ” %95 
Chttp//code.activestate.com/recipes/52308-the-simple-but-handy-collector-of-a-bunch-of-named/) 中 分 享 这 个 技巧 时 使 用 的 类 
名 是 Bunch. 








` 我 不 会 重 述 19.1.2 节 讨 论 的 细节 ， 不 过 要 知道 ， 在 某 些 应 用 中 ，Record 类 可 
能 要 处 理 不 能 作为 属性 名 使 用 的 键 。 


示例 19-9 中 定义 的 Record 类 太 简 单 了 ， 因 此 你 可 能 会 问 ， 为 什么 之 前 没 用 ， 而 是 使 用 

更 复杂 的 FrozenJSON 类 。 原 因 有 两 个 。 第 一 ，FrozenJSON HA MRE A 
列表 ; 而 Record 类 不 需要 这 么 做 ， 因 为 转换 好 的 数据 集中 没有 骨 套 的 映射 和 列表 ， 记 录 
中 只 有 字符 串 、 整 数 、 字 符 串 列表 和 整数 列表 。 第 二 ，FrozenJSON RLY la ARK 

_ data 属性 〈 值 是 字典 ， 用 于 调用 keys 等 方法 ) ， 而 现在 我 们 也 不 需要 这 么 做 了 。 


















































` Python 标准 库 中 至 少 有 两 个 与 Record 类 似 的 类 ， 其 实例 可 以 有 任意 个 属性 ， 
由 传 给 构造 方法 的 关键 字 参 数 构建 一 multiprocessing.Namespace 类 [文档 
(https://docs.python.org/3/library/multiprocessing.html? 























highlight=namespace#namespaceobjects) , PRAY 
Chttps://hg.python.org/cpython/file/50d58 1 £69a73/Lib/multiprocessing/managers.py#1909 ) ] 
Fil argparse.Namespace 类 [文档 Chttps://docs.python.org/3/library/argpa- 
rse.html#argparse.Namespace) , PRAY 
(https://hg.python.org/cpython/file/50d581f69a73/Lib/argparse.py#11196) ]。 我 之 所 以 自 
己 实现 Record， 是 为 了 说 明 一 个 重要 的 做 法 : E init “方法 中 更 新 实例 的 
dict _ 属性。 


像 上 面 那 样 调整 日 程 数 据 集 之 后 ， 我 们 可 以 扩展 Record 类 ， 让 它 提 供 一 个 有 用 的 服务 : 
自动 获取 event 记录 引用 的 venue 和 speaker 记录 。 这 与 Django ORM 访问 

models .ForeignKey 字段 时 所 做 的 事 类 似 : 得 到 的 不 是 键 ， 而 是 链接 的 模型 对 象 。 在 下 
一 个 示例 中 ， 我 们 要 使 用 特性 来 实现 这 个 服务 。 


19.1.5 ”使 用 特性 获取 链接 的 记录 

下 一 个 版 本 的 目标 是 ， 对 于 从 Shelf 对 象 中 获取 的 event 记录 来 说 ， 读 取 它 的 venue 或 
D. 属性 时 返回 的 不 是 编号 ， 而 是 完整 的 记录 对 象 。 用 法 如 示例 19-10 中 的 交互 代 
码 片 段 所 示 。 


示例 19-10 摘自 schedule2.py 脚本 的 doctest 


















































>>> DbRecord.set_db(db) © 

>>> event = DbRecord.fetch('‘event.33950') @ 

>>> event © 

<Event 'There *Will* Be Bugs'> 

>>> event.venue @ 

<DbRecord serial='venue.1449'> 

>>> event.venue.name © 

"Portland 251' 

>>> for spkr in event.speakers: © 
print('{@.serial}: {@.name}'.format(spkr) ) 


speaker.3471: Anna Martelli Ravenscroft 
speaker.5199: Alex Martelli 








@ DbRecord 类 扩展 Record 类 ， 添 加 对 数据 库 的 支持 : 为 了 操作 数据 库 ， 必 须 为 
DbRecord 提供 一 个 数据 库 的 引用 。 


© DbRecord. fetch 类 方法 能 获取 任何 类 型 的 记录 。 

















Q5, event 是 Event 类 的 实例 ， 而 Event 类 扩展 DbRecord 类 。 

@ event.venue 返回 一 个 DbRecord 实例 。 

@ 现在 ， 想 找 出 event. venue 的 名 称 就 容易 了 。 这 种 自动 取 值 是 这 个 示例 的 目标 。 
O 还 可 以 迭代 event. speakers 列表 ， 获 取 表 示 各 位 演讲 者 的 DbRecord 对 象 。 
19-1 绘 出 了 本 节 要 分 析 的 儿 个 类 。 





Record 


_ init _ 方法 与 schedulel.py 脚本 《〈 见 示例 19-9) 中 的 一 样 ， 为 了 辅助 测试 ， 增 加 
了 _ eq 方法。 











DbRecord 


Record 类 的 子 类 ,添加 了 _db 类 属性 ， 用 于 设置 和 获取 db 属性 的 set_db 和 
get_db 静态 方法 ， 用 于 从 数据 库 中 获取 记录 的 fetch 类 方法 ， 以 及 辅助 调试 和 测试 的 
_repr_ 实例 方法 。 

















Event 


DbRecord 类 的 子 类 ， 添 加 了 用 于 获取 所 链接 记录 的 venue 和 speakers 属性 ， 以 及 
特殊 的 ”repr Wyk. 


DbRecord 

—init_ E 

SS = set_db {staticmethod} A 
get_db {staticmethod} 


| Event _ | 
fetch {classmethod} venue {property} 
a speakers {propert 


__repr__ 


























19-1: 改进 的 Record 类 和 两 个 子 类 (DbRecord 和 Event) 的 UML 类 图 


DbRecord. db 类 属性 的 作用 是 存储 打开 的 shelve.Shelf 数据 库 引 用 ， 以 便 在 需要 使 
用 数据 库 的 DbRecord. fetch 方法 及 Event .venue 和 Event.speakers 属性 中 使 用 。 我 
把 db 设 为 私有 类 属性 ， 然 后 定义 了 普通 的 读 值 方法 和 设 值 方法 ， 以 防 不 小 心 履 盖 

_ db 属性 的 值 。 基 于 一 个 重要 的 原因 ， 我 没有 使 用 特性 去 管理 _db 属性 : 特性 是 用 于 
管理 实例 属性 的 类 属性 。 




































































stack Overflow 中 有 个 题 为 “Class-levelread only properties in Python” 的 问题 
ChttpVstackoverflow.comy/questions/1735434/class-level-read-only-properties-in-python) ， 为 类 中 的 只 读 属 性 提供 了 解决 方 
案 ， 其 中 包括 Alex Martelli 提供 的 一 个 方案 。 这 些 方案 要 用 到 元 类 ， 因 此 学 习 那 些 方案 之 前 可 能 要 先 读 本 书 第 21 章 。 
























































本 节 的 代码 在 本 书 仓库 Chttps://github.conyfluentpython/example-code) 里 的 schedule2.py {R 
块 中 。 这 个 模块 有 100 多 行 ， 因 此 我 会 分 成 几 部 分 分 析 。 


schedule2.py 脚本 的 前 几 个 语句 在 示例 19-11 中 。 


示例 19-11 schedule2.py: 导入 模块 ， 定 义 常量 和 增强 的 Record 类 

















import warnings 
import inspect © 


import osconfeed 


DB_NAME = ‘data/schedule2_db' @ 
CONFERENCE = ‘conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self. dict__.update(kwargs) 


def _eq_ (self, other): © 
if isinstance(other, Record): 
return self. dict__ == other. dict__ 
else: 
return NotImplemented 








O inspect 模块 在 load_db 函数 中 使 用 (参见 示例 19-14) o 


O 因为 要 存储 几 个 不 同类 的 实例 ， 所 以 我 们 要 创建 并 使 用 不 同 的 数据 库 文件 ， 这 里 不 用 
示例 19-9 中 的 'schedule1l_db'， 而 是 使 用 'schedule2_db'. 


© eq 方法 对 测试 有 重大 帮助 。 


在 Python 2 中 ， 只 有 “新 式 ” 类 支持 特性 。 在 Python 2 中 定义 新 式 类 的 方法 是 ， 直 接 或 


间接 继承 object 类 。 示 例 19-11 中 的 Record 类 是 一 个 继承 体系 的 基 类 ， 用 到 了 特 
性 因此， 在 Python 2 中 声明 Record 类 时 ， 开 头 要 这 么 写 : 11 





























class Record(object): 


# 余下 的 代码 .… 











了 在 Python 3 中 明确 指明 继承 object 类 没有 错 ， 但 是 多 余 ， 因 为 现在 所 有 类 都 是 新 式 的 。 此 例 说 明 ， 与 过 去 告别 能 
让 语言 更 简洁 。 如 果 要 在 Python 2 和 Python 3 中 运行 同一 段 代 码 ， 应 该 显 式 继承 object 类 。 

















接 下 来 ，schedule2.py 脚本 定义 了 两 个 类 一 一 一 个 自 定义 的 异常 类 型 和 DbRecord 类 ， 参 
见 示 例 19-12。 








示例 19-12 schedule2.py: MissingDatabaseError 类 和 DbRecord 类 





class MissingDatabaseError(RuntimeError): 

















"" 需 要 数据 库 但 没有 指定 数据 库 时 抛 出 。"' 





class DbRecord(Record): @ 
__db = None © 


@staticmethod @ 
def set_db(db): 





DbRecord. db = db © 


@staticmethod © 
def get_db(): 
return DbRecord. db 


@classmethod @ 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] © 
except TypeError: 
if db is None: © 
msg = "database not set; call '{}.set_db(my_db)'" 
raise MissingDatabaseError(msg.format(cls.__name_)) 
else: 四 
raise 


def _repr_ (self): 
if hasattr(self, 'serial'): @ 
cls name = self. class .name 
return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super()._ repr () @ 











O 自 定义 的 异常 通常 是 标志 类 ， 没 有 定义 体 。 写 一 个 文档 字符 串 ， 说 明 异 常 的 用 途 ， 比 
只 写 一 个 pass 语句 要 好 。 


























© DbRecord 类 扩展 Record 类 。 

© _ db 类 属性 存储 一 个 打开 的 shelve.Shelf 数据 库 引 用 。 

O set_db 是 静态 方法 ， 以 此 强调 不 管 调用 多 少 次 ， 效 果 始 终 一 样 。 
© 即使 调用 Event.set_db(my_db), __db 属性 仍 在 DbRecord 类 中 设置 。 


QO get_db 也 是 静态 方法 ， 因 为 不 管 怎样 调用 ， 返 回 值 始终 是 DbRecord. db 引用 的 对 


O fetch 是 类 方法 ， 因 此 在 子 类 中 易于 定制 它 的 行为 。 
@ 从 数据 库 中 获取 ident 键 对 应 的 记录 。 


如 果 捕 获 到 TypeError 异常 ， 而 且 db 变量 的 值 是 None， 抛 出 自 定义 的 异常 ， 说 明 必 
须 设 置 数据 库 。 


© 否则 ， 重 新 抛 出 TypeError 异常 ， 因 为 我 们 不 知道 怎么 处 理 
O 如 果 记 录 有 serial 属性 ， 在 字符 串 表示 形式 中 使 用 。 
@ 否则 ， 调 用 继承 的 _repr Wik. 
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现在 到 这 个 示例 的 重要 部 分 了 一 一 Event 类 ， 如 示例 19-13 所 示 。 
示例 19-13 schedule2.py: Event 类 


class Event(DbRecord): © 


@property 

def venue(self): 
key = 'venue.{}'.format(self.venue_serial) 
return self. class .fetch(key) @ 


@property 
def speakers(self): 
if not hasattr(self, '_speaker objs'): © 
spkr_serials = self. dict ['speakers'] @ 
fetch = self. class_ .fetch © 
self. speaker objs = [fetch('speaker.{}'.format(key)) 
for key in spkr_serials] © 
return self. speaker_objs @ 


def _ repr__ (self): 
if hasattr(self, ‘name'): O 
cls_name = self. class .name 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super().__repr_() © 





@ Event 类 扩展 DbRecord 类 。 


四 在 venue 特性 中 使 用 venue_serial 属性 构建 key， 然 后 传 给 继承 自 DbRecord 类 的 
fetch 类 方法 (详情 参见 下 文 〉。 





























© speakers 特性 检查 记录 是 否 有 _speaker_objs 属性 。 


O 如 果 没 有 ， 直 接 从 __dict__ 实例 属性 中 获取 'speakers' 属性 的 值 ， 防 止 无 限 递 
归 ， 因 为 这 个 特性 的 公开 名 称 也 是 speakers。 


© 获取 fetch 类 方法 的 引用 ( 稍 后 会 说 明 这 么 做 的 原因 》。 
@ 使 用 fetch 获取 speaker 记录 列表 ， 然 后 赋值 给 self._speaker_objs。 
O 返回 前 面 获取 的 列表 。 
O 如 果 记 录 有 name 属性 ， 在 字符 串 表 示 形 式 中 使 用 。 

否则 ， 调 用 继承 的 __repr_ 方法 。 
在 示例 19-13 中 的 venue 特性 里 ， 最 后 一 行 返回 的 是 self. class__.fetch(key)， 
为 什么 不 直接 使 用 self.fetch(key) IE? 对 这 个 OSCON 数据 源 来 说 ， 可 以 使 用 后 者 ， 


因为 事件 记录 都 没有 'fetch ' 键 。 哪 怕 只 有 一 个 事件 记录 有 名 为 'fetch' WR, ABATE 
那个 Event 实例 中 ，self. fetch 获取 的 是 fetch 字段 的 值 ， 而 不 是 Event AAA 



















































































DbRecord 的 fetch 类 方法 。 这 个 缺陷 不 明显 ， 很 容易 被 测试 忽略 ， 在 生产 环境 中 ， 如 果 
会 场 或 演讲 者 记录 链接 到 那个 事件 记录 ， 获 取 事 件 记 录 时 才 会 暴露 出 来 。 











Pay 从 数据 中 创建 实例 属性 的 名 称 时 肯定 有 可 能 会 引入 缺陷 ， 因 为 类 属性 (例如 
方法 ) 可 能 被 遮盖 ， 或 者 由 于 意外 宪 盖 现 有 的 实例 属性 而 丢失 数据 。 这 个 问题 可 能 是 
Python 字典 默认 不 能 像 JavaScript 对 象 那样 访问 的 主要 原因 。 


如 果 Record 类 的 行为 更 像 映射 ， 可 以 把 动态 的 ”getattr _ 方法 换 成 动态 的 
__getitem _ 方法， 这 样 就 不 会 出 现 由 于 禾 盖 或 遮盖 而 引起 的 缺陷 了 。 使 用 映射 实现 
Record 类 或 许 更 符合 Python 风格 。 可 是 ， 如 果 我 采用 那 种 方式 ， 就 发 掘 不 了 动态 属性 编 
程 的 技巧 和 陷阱 了 。 

这 个 示例 最 后 的 代码 是 重 写 的 1oad_db 函数 ， 如 示例 19-14. 


示例 19-14 schedule2.py: load db K žr 







































































def load_db(db): 
raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record_type = collection[:-1] © 
cls name = record_type.capitalize() @ 
cls = globals().get(cls_name, DbRecord) © 
if inspect.isclass(cls) and issubclass(cls, DbRecord): @ 
factory = cls 日 
else: 
factory = DbRecord © 
for record in rec list: @ 
key = '{}.{}'.format(record_type, record[ 'serial']) 
record[ 'serial'] = key 
db[key] = factory(**record) © 








@ 目前 ， 与 schedulel.py 脚本 〈 见 示例 19-9) 中 的 load_db 函数 一 样 。 


© 把 record_type 变量 的 值 首 字母 变 成 大 写 〈 例 如 ， 把 "event ' Æ 'Event') ， 获 
取 可 能 的 类 名 。 


O 从 模块 的 全 局 作用 域 中 获取 那个 名 称 对 应 的 对 象 ， 如 果 找 不 到 对 象 ， 使 用 DbRecord。 
O 如 果 获 取 的 对 象 是 类 ， 而 且 是 DbRecord 的 子 类 ...... 


加 把 对 象 赋值 给 factory 变量 。 因 此 ，factory 的 值 可 能 是 DbRecord 的 任何 一 个 
子 类 ， 具 体 的 类 取决 于 record_type 的 值 。 


人 否则， 把 DbRecord 赋值 给 factory 变量 。 


O 这 个 for 循环 创建 key， 然 后 保存 记录 ， 这 与 之 前 一 样 ， 不 过 .……. 











©@..... 存储 在 数据 库 中 的 对 象 由 factory 构建 ，factory 可 能 是 DbRecord 类 ， 也 可 能 
是 根据 record_type 的 值 确定 的 某 个 子 类 。 


注意 ， 只 有 事件 类 型 的 记录 有 自 定 义 的 类 一 Event。 不 过 ， 如 果 定 义 了 Speaker 或 
Venue 类 ，1load db 函数 构建 和 保存 记录 时 会 自动 使 用 这 两 个 类 ， 而 不 会 使 用 默认 的 


DbRecord 类 。 


本 章 目前 所 举 的 示例 是 为 了 展示 如 何 使 用 基本 的 工具 ， 如 getattr__ Wik, hasattr 
函数 、getattr 函数 、@property 装饰 器 和 ”dict _ 属性 ， 来 实现 动态 属性 。 


特性 经 常用 于 把 公开 的 属性 变 成 使 用 读 值 方法 和 设 值 方法 管理 的 属性 ， 且 在 不 影响 客户 端 
代码 的 前 提 下 实施 业务 规则 ， 如 下 一 节 所 述 。 











































































































19.2 ”使 用 特性 验证 属性 


@property 装饰 器 实现 只 读 特 性 。 本 节 要 创建 一 个 可 读 写 


19.2.1 LineItem 类 第 1 版 : 表示 订单 中 商品 的 类 


假设 有 个 销售 散装 有 机 食物 的 电 商 应 用 ， 客 户 可 以 按 重量 订购 坚果 、 干 果 或 杂粮 。 在 这 个 
系统 中 ， 每 个 订单 中 都 有 一 系列 商品 ， 而 每 个 商品 都 可 以 使 用 示例 19-15 中 的 类 表示 。 


示例 19-15 bulkfood vl: 最 简单 的 LineItem 类 























class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 














这 个 类 很 精简 ， 不 过 或 许 太 简单 了 。 示 例 19-16 揭示 了 一 个 问题 。 


示例 19-16 重量 为 负 值 时 ， 金 额 小 计 为 负 值 





>>> raisins = LineItem('Golden raisins', 10, 6.95) 
>>> raisins.subtotal() 
69.5 





>>> raisins.weight = -26 # 无 效 输入 
>>> raisins.subtotal() # 无 效 输 昌 
-139.0 


























这 个 示例 像 玩 具 一 样 ， 但 是 没有 想象 中 的 那么 好 玩 。 下 面 是 亚马逊 早期 的 真实 故事 。 


我 们 发 现 顾客 买书 时 可 以 把 数量 设 为 负数 ! 然后 ， 我 们 把 金额 打 到 顾客 的 信用 卡 上 ， 
苦 苦 等 待 他 们 把 书 寄 出 《〈 想 得 美 ) . 2 





Jeff Bezos 
亚马逊 创始 人 和 CEO 





2 摘自 《华尔街 日 报 》 的 文章 ，“Birth ofa Salesman” (2011 年 10 月 15 
H, http://www.wsj.com/articles/SB 10001424052970203914304576627102996831200) ， 这 是 Jeff Bezos 的 原 话 。 


























这 个 问题 怎么 解决 呢 ? 我 们 可 以 修改 LineItem 类 的 接口 ， 使 用 读 值 方法 和 设 值 方法 管理 
weight 属性 。 这 是 Java 采用 的 方式 ， 这 里 也 完全 可 行 。 


























但 是 ， 如 果 能 直接 设 定 商品 的 weight 属性 ， 显得 更 自然 。 此 外 ， 系 统 可 能 在 生产 环境 











中 ， 而 其 他 部 分 已 经 直接 访问 item.weight 了 。 此 时 ， 符 合 Python 风格 的 做 法 是 ， 把 数 











据 属性 换 成 特性 。 


19.2.2 LineItem 类 第 2 版 : 能 验证 值 的 特性 














实现 特性 之 后 ， 我 们 可 以 使 用 读 值 方法 和 设 值 方法 ， 但 是 LineItem 类 的 接口 保持 不 变 





( 即 ， 设 置 LineItem 对 象 的 weight 属性 依然 写成 raisins.weight = 12) 。 
示例 19-17 列 出 可 读 写 的 weight 特性 的 代码 。 


示例 19-17 bulkfood v2.py: 定义 了 weight 特性 的 LineItem 类 











class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


de 


十 


subtotal(self): 
return self.weight * self.price 


@property @ 
def weight(self): © 
return self. weight @ 


@weight.setter © 
def weight(self, value): 
if value > ð: 
self. weight = value QO 
else: 
raise ValueError('value must be > @') @ 




















@ 这 里 已 经 使 用 特性 的 设 值 方法 了 ， 确 保 所 创建 实例 的 weight 属性 不 能 为 负 值 。 
© @property 装饰 读 值 方法 。 
O 实现 特性 的 方法 ， 其 名 称 都 与 公开 属性 的 名 称 一 样 一 一 weight。 
O 真正 的 值 存 储 在 私有 属性 weight 中 。 



































@ 被 装饰 的 读 值 方法 有 个 .setter 属性 ， 这 个 属性 也 是 装饰 器 ， 这 个 装饰 器 把 读 值 方法 














和 设 值 方法 绑 定 在 一 起 。 
O 如 果 值 大 于 零 ， 设 置 私 有 属性 weightt。 
否则 ， 抛 出 ValueError 异常 


注意 ， 现 在 不 能 创建 重量 为 无 效 值 的 LineItem 对 象 : 














o 








>>> walnuts = LineItem('walnuts', ©, 10.00) 
Traceback (most recent call last): 


ValueError: value must be > @ 





























现在 ， 我 们 禁止 用 户 为 weight 属性 提供 负 值 或 零 。 虽 然 买 家 通常 不 能 设置 商品 的 价格 ， 
但 是 工作 人 员 可 能 犯错 ， 应 用 程序 也 可 能 有 缺 史 ， 从 而 导致 LineItem RAN price 属 
性 为 负 值 。 为 了 防止 出 现 这 种 情况 ， 我 们 也 可 以 把 price 属性 变 成 特性 ， 但 是 这 样 我 们 
的 代码 中 就 存在 一 些 重复 。 


还 记得 第 14 章 引 述 Paul Graham 的 那 句 话 吗 ?他 说 :“ 当 我 在 自己 的 程序 中 发 现 用 到 了 模 
式 ， 我 觉得 这 就 表明 某 个 地 方 出 错 了 。” 去 除 重复 的 方法 是 抽象 。 MANTERE 2 AT 
方式 : 使 用 特性 工厂 函数 ， 或 者 使 用 描述 符 类 。 后 者 更 灵活 ， 第 20 章 会 全 面 讨 论 。 其 
o 0 不 过 ， 这 里 我 们 要 继续 探讨 特性 ， 实 现 一 个 特性 

工厂 K? 


但 是 ， 在 实现 特性 工厂 函数 之 前 ， 我 们 要 深入 理解 特性 。 
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19.3 ”特性 全 解析 


虽然 内 置 的 property 经 常用 作 装 饰 器 ， 但 它 其 实 是 一 个 类 。 在 Python 中 ， 函 数 和 类 通 
常 可 以 互 换 ， 因 为 二 者 都 是 可 调用 的 对 象 ， 而 且 没 有 实例 化 对 象 的 new 运算 符 ， 所 以 调 
用 构造 方法 与 调用 工矿 函数 没有 区 别 。 此 外 ， 只 要 能 返回 新 的 可 调用 对 象 ， 代 蔡 被 装饰 的 
函数 ， 二 者 都 可 以 用 作 闭 饰 器 。 


property 构造 方法 的 完整 签名 如 下 : 


property(fget=None, fset=None, fdel=None, doc=None) 


所 有 参数 都 是 可 选 的 ， 如 果 没 有 把 函数 传 给 茶 个 参数 ， 那 么 得 到 的 特性 对 象 就 不 允许 执行 
相应 的 操作 。 


property 2 类 型 在 Python 2.2 中 引入 ， 但 是 直到 Python 2.4 才 出 现 @ 装饰 器 句法 ， 因 此 有 那 
么 几 年 ， 若 想 定义 特性 ， 则 只 能 把 存 取 函 数 传 给 前 两 个 参数 。 


不 使 用 装饰 器 定义 特性 的 “经 典 ” 名 法 如 示例 19-18 所 示 。 
示例 19-18 bulkfood_v2b.py: 效果 与 示例 19-17 一 样 ， 只 不 过 没 使 用 装饰 器 



























































class LineItem: 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 


def get_weight(self): © 
return self. weight 


def set_weight(self, value): @ 
if value > ð: 
self. weight = value 
else: 
raise ValueError('value must be > Q') 


weight = property(get_weight, set_weight) © 








[j 


@ 普通 的 读 值 方法 。 
四 普通 的 设 值 方法 。 
© 构建 property 对 象 ， 然 后 赋值 给 公开 的 类 属性 。 














某 些 情况 下 ， 这 种 经 典 形 式 比 装饰 器 句法 好 ; 稍 后 讨论 的 特性 工厂 函数 就 是 一 例 。 但 是 ， 
在 方法 众多 的 类 定义 体 中 使 用 装饰 器 的 话 ， 一 眼 就 能 看 出 哪些 是 读 值 方法 ， 哪 些 是 设 值 方 
法 ， 而 不 用 按照 惯例 ， 在 方法 名 的 前 面 加 上 get 和 set. 

类 中 的 特性 能 影响 实例 属性 的 寻找 方式 ， 而 一 开始 这 种 方式 可 能 会 让 人 觉得 意外 。 下 一 节 
会 详细 说 明 。 

19.3.1 ESA m XH JE TE 

特性 都 是 类 属性 ， 但 是 特性 管理 的 其 实 是 实例 属性 的 存 取 。 


9.9 节 说 过 ， 如 果实 例 和 所 属 的 类 有 同名 数据 属性 ， 那 么 实例 属性 会 覆盖 〈 或 称 遮盖 ) 类 
属性 一 一 至 少 通过 那个 实例 读 取 属 性 时 是 这 样 。 示 例 19-19 阐明 了 这 一 点 。 


示例 19-19 实例 属性 遮盖 类 的 数据 属性 
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>>> class Class: #@ 
data = 'the class data attr' 
@property 
def prop(self): 
return 'the prop value' 


>>> obj = Class() 

>>> vars(obj) # @ 
{} 

>>> obj.data # © 
"the class data attr' 
>>> obj.data = 'bar' #@ 
>>> vars(obj) # © 
{'data': 'bar'} 

>>> obj.data # O 
‘bar’ 

>>> Class.data # Q 
"the class data attr' 


























定义 Class 类 ， 这 个 类 有 两 个 类 属性 : data 数据 属性 和 prop 特性 。 

© vars 函数 返回 obj 的 _ dict 属性， 表明 没有 实例 属性 。 

全 读 取 obj.data， 获 取 的 是 Class.data 的 值 。 

© 为 obj.data 赋值 ， 创 建 一 个 实例 属性 。 

O 审查 实例 ， 查 看 实例 属性 。 

@ 现在 读 取 obj.data， 获 取 的 是 实例 属性 的 值 。 从 obj 实例 中 读 取 属性 时 ， 实 例 属性 


data 会 遮盖 类 属性 data。 
@ Class.data 属性 的 值 完好 无 损 。 
下 面 尝试 覆盖 obj 实例 的 prop 特性 。 接 着 前 面 的 控制 台 会 话 ， 输 入 示例 19-20 中 的 代 





















































码 。 


示例 19-20 ”实例 属性 不 会 遮盖 类 特性 (接续 示例 19-19) 














>>> Class.prop #@ 

<property object at @x1072b74@8> 
>>> obj.prop #@ 

"the prop value’ 

>>> obj.prop = 'foo' # © 
Traceback (most recent call last): 


AttributeError: can't set attribute 
>>> obj.__dict__['prop'] = 'foo' #@ 
>>> vars(obj) # © 

{ 'data': 'bar','prop': 'foo'} 

>>> obj.prop # O 

"the prop value’ 

>>> Class.prop = 'baz' #@ 

>>> obj.prop # O 

"foo' 














@ 直接 从 Class 中 读 取 prop 特性 ， 获 取 的 是 特性 对 象 本 身 ， 不 会 运行 特性 的 读 值 方 


去 。 

O ÈR obj. prop 会 执行 特性 的 读 值 方法 。 
O 尝试 设置 prop 实例 属性 ， 结 果 失 败 。 

@ 但 是 可 以 直接 把 'prop' 存 入 obj. dict 。 

O 可 以 看 到 ，obj 现在 有 两 个 实例 属性 : data 和 prop. 

@ 然而 ， 读 取 obj.prop 时 仍 会 运行 特性 的 读 值 方法 。 特 性 没 被 实例 属性 遮盖 。 
@ fit. Class.prop 特性 ， 销 毁 特 性 对 象 。 


@ 现在 ，obj .prop 获取 的 是 实例 属性 。Class.prop 不 是 特性 了 ， 因 此 不 会 再 覆盖 
obj.prop. 


最 后 再 举 一 个 例子 ， 为 Class 类 新 添 一 个 特性 ， 履 盖 实 例 属 性 。 示 例 19-21 接续 示例 19- 
20. 
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示例 19-21 新 添 的 类 特性 遮盖 现 有 的 实例 属性 《接续 示例 19-20) 











>>> obj.data #@ 

‘bar’ 

>>> Class.data # @ 

"the class data attr' 

>>> Class.data = property(lambda self: 'the "data" prop value') # © 
>>> obj.data # O 

"the "data" prop value’ 

>>> del Class.data # O 





>>> obj.data # O 
‘bar’ 





Q obj .data 获取 的 是 实例 属性 data. 





四 Class.data 获取 的 是 类 属性 data. 

© 使 用 新 特性 覆盖 Class.data. 

@ 现在 ，obj .data # Class.data 特性 遮盖 了 。 

© 删除 特性 。 

O 现在 恢复 原样 ，obj .data 获取 的 是 实例 属性 data. 


本 节 的 主要 观点 是 ，obj.attr 这 样 的 表达 式 不 会 从 obj 开始 寻找 attr， 而 是 从 
obj.__class__ 开始 ， 而 且 ， 仅 当 类 中 没有 名 为 attr 的 特性 时 ，Python 才 会 在 obj 实 
例 中 寻找 。i 这 条 规则 不 仅 适用 于 特性 ， 还 适用 于 a 述 符 cera een 

T A descriptor) . 4 20 章 会 会 进一步 讨论 描述 述 符 ， 那 时 你 会 发 现 ， 特 性 其 实 是 覆盖 
型 描述 符 。 


现在 回 到 特性 。 各 种 Python 代码 单元 (模块 、 函 数 、 类 和 方法 ) 都 可 以 有 文档 字符 串 。 
下 一 节 说 明 如 何 把 文档 依附 到 特性 上 。 








































































































19.3.2 ”特性 的 文档 


控制 台中 的 help() 函数 或 IDE 等 工具 需要 显示 特性 的 文档 时 ， 会 从 特性 的 __doc_ 属 
性 中 提取 信息 。 


如 果 使 用 经 典 调用 人 句法， 为 property 对 象 设置 文档 字符 串 的 方法 是 传 入 doc 参数 : 





























weight = property(get_weight, set_weight, doc='weight in kilograms') 














使 用 装饰 器 创建 property 对 象 时 ， 读 值 方 法 (有 @property 装饰 器 的 方法 ) 的 文档 字 
i en 变 成 特性 的 文档 。 图 19-2 显示 的 是 从 示例 19-22 里 的 代码 中 生成 的 
帮助 界面 。 














.8.0.0 — oe Sa Yth ON ic a 9 

lontra:metaprog luciano$ python3 -i doc_property.py 

>>> help(Foo.bar)| .89.0.9 3. less ral 
|Help on property: 


i eoo 3. Python 2 
The bar attribute |Lontra:metaprog luciano$ python3 -i doc_property.py | 
CEND) | >>> help(Foo.bar) eoo DON: tS eee —_ = Fal 


Help on class Foo in module __main__: 
>>> helpCFoo)|] 


class Foo(builtins.object) 
| Data descriptors defined here: 


saiet 
dictionary for instance variables (if defined) 


l 
l 
1 
l 
| __weakref__ 
| l list of weak references to the object (if defined) 
l 
l 
l 


The bar attribute 




















19-2: 在 Python 控制 台中 执行 help(Foo.bar) 和 help(Foo) 命令 时 的 截图 ; 源码 
在 示例 19-22 中 


示例 19-22 ”特性 的 文档 


class Foo: 


@property 

def bar(self): 
"''The bar attribute''' 
return self. dict__['bar'] 


@bar.setter 
def bar(self, value): 
self. dict ['bar'] = value 











至 此 ， 我 们 介绍 了 特性 的 重要 知识 。 下 面 回 过 头 来 解决 前 面 遇 到 的 问题 : 保护 LineItem 
对 象 的 weight 和 price 属性 ， 只 人 允许 设 为 大 于 零 的 值 ; 但 是 ， 不 用 手动 实现 两 对 几乎 
一 样 的 读 值 方法 和 设 值 方法 。 





19.4 ”定义 一 个 特性 工厂 函数 


我 们 将 定义 一 个 名 为 quantity 的 特性 工厂 函数 ， 取 这 个 名 字 是 因为 ， 在 这 个 应 用 中 要 
理 的 属性 表示 不 能 为 负数 或 零 的 量 。 示 例 19-23 是 LineItem 类 的 简洁 版 ， 用 到 了 
quantity 特性 的 两 个 实例 : 一 个 用 于 管理 weight 属性 ， 另 一 个 用 于 管理 price Jatt. 
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示例 19-23 bulkfood_v2prop.py: 使 用 特性 工厂 函数 quantity 


class LineItem: 
weight = quantity('weight') © 
price = quantity('price') @ 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price @ 











@ 使 用 工厂 函数 把 第 一 个 自 定 义 的 特性 weight 定义 为 类 属性 。 
四 第 二 次 调用 ， 构 建 男 一 个 自 定义 的 特性 ，price。 

全 这 里 ， 特 性 已 经 激活 ， 确 保 不 能 把 weight 设 为 负数 或 零 。 
@@ 这 里 也 用 到 了 特性 ， 使 用 特性 获取 实例 中 存储 的 值 。 


前 文 说 过 ， 特 性 是 类 属性 。 构 建 各 个 quantity 特性 对 象 时 ， 要 传 入 LineItem 实例 属性 
的 名 称 ， 让 特性 管理 。 可 惜 ， 这 一 行 要 两 次 输入 单词 weight: 


weight = quantity('weight' ) 


这 里 很 难 避 免 重 复 输 入 ， 因 为 特性 根本 不 知道 要 绑 定 哪 个 类 属性 名 。 记 住 ， 赋 值 语句 的 右 
边 先 计算 ， 因 此 调用 quantity() 时 ，weight 类 属性 还 不 存在 。 
















































































` 如 果 想 改进 quantity 特性 ， 避 免 用 户 重 复 输入 属性 名 ， 那 么 对 元 编程 来 说 是 
个 挑战 。 第 20 章 会 介绍 一 种 变通 方法 ， 真 正 的 解决 方法 在 第 21 章 说 明 ， 因 为 要 么 得 
使 用 类 装饰 器 ， 要 么 得 使 用 元 类 。 


示例 19-24 列 出 quantity 特性 工厂 函数 的 实现 。13 














co 
wH 
= 
Lol 
jay 





1 这 段 代 码 改编 自 David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ) 中 文 版 》 一 书 中 的 “9.21 避免 ! 
复 的 属性 方法 ”一 节 。 

















示例 19-24 bulkfood v2prop.py: quantity 特性 工厂 函数 


def quantity(storage name): © 


def qty_getter(instance): @ 
return instance. dict [storage name] © 


def qty_setter(instance, value): @ 
if value > ð: 
instance. dict [storage name] = value © 
else: 
raise ValueError('value must be > Q') 


return property(qty_getter, qty_setter) © 

















@ storage_name 参数 确定 各 个 特性 的 数据 存储 在 哪儿 ; 对 weight 特性 来 说 ， 存 储 的 名 
称 是 'weight'。 


© qty_getter 函数 的 第 一 个 参数 可 以 命名 为 self， 但 是 这 么 做 很 奇怪 ， 因 为 
qty_getter MAAR MAH; instance 指 代 要 把 属性 存储 其 中 的 LineItem K 
例 。 


© qty_getter 引用 了 storage_name， 把 它 保 存在 这 个 函数 的 闭 包 里 ;， 值 直接 从 
instance. dict__ 中 获取 ， 为 的 是 跳 过 特性 ， 防 止 无 限 递 归 。 


定义 qty_setter 函数 ， 第 一 个 参数 也 是 instance. 

回 值 直接 存 到 instance. dict _ 中 ， 这 也 是 为 了 跳 过 特性 。 

O 构建 一 个 自 定义 的 特性 对 象 ， 然 后 将 其 返回 

示例 19-24 中 值得 仔细 分 析 的 代码 是 与 storage_name 变量 相关 的 部 分 。 使 用 传统 方式 定 
义 特性 时 ， 用 于 存储 值 的 属性 名 硬 编码 在 读 值 方法 和 设 值 方法 中 。 但 是 ， 这 里 的 
qty_getter 和 qty_setter 函数 是 通用 的 ， 要 依靠 storage name 变量 判断 从 


_ dict _ 中 获取 哪个 属性 ， 或 者 设置 哪个 属性 。 每 次 调用 quantity 工厂 函数 构建 忆 
时 ， 都 要 把 storage name 参数 设 为 独一无二 的 值 。 


在 工厂 函数 的 最 后 一 行 ， 我 们 使 用 property 对 象 包装 qty_getter 和 qty_setter 函 
数 。 需 要 运行 这 两 个 函数 时 ， 它 们 会 从 闭 包 中 读 取 storage_name， 确 定 从 哪里 获取 属性 
的 值 ， 或 者 在 哪里 存储 属性 的 值 。 

在 示例 19-25 中 ， 我 创建 并 审查 了 一 个 LineItem 示例 ， 说 明 存 储 值 的 是 哪个 属 ' 


示例 19-25 bulkfood v2prop.py: quantity 特性 工厂 函数 
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>>> nutmeg = LineItem('Moluccan nutmeg', 8, 13.95) 
>>> nutmeg.weight, nutmeg.price © 

(8, 13.95) 

>>> sorted(vars(nutmeg).items()) @ 


| [C description", 'Moluccan nutmeg'), ('price', 13.95), ('weight', 8)] 








@ 通过 特性 读 取 weight 和 price， 这 会 遮盖 同名 实例 属性 。 
O 使 用 vars 函数 审查 nutmeg 实例 ， 查 看 真正 用 于 存储 值 的 实例 属 ! 


注意 ， 工 三 函数 构建 的 特性 利用 了 19.3.1 节 所 述 的 行为 weight 特性 覆盖 了 weight 实 
例 属性 ， 因 此 对 self.weight 或 nutmeg.weight 的 每 个 引用 都 由 特性 函数 处 理 ， 只 有 
直接 存 取 dict _ 属性 才能 跳 过 特性 的 处 理 逻 辑 。 


示例 19-25 中 的 代码 有 点 难 理解 ， 不 过 够 简洁 ， 与 示例 19-17 中 使 用 装饰 器 声明 读 值 方法 
和 设 值 方法 的 代码 行 数 一 样 ， 但 是 那里 只 定义 了 weight 特性 。 示 例 19-23 中 定义 的 
LineItem 类 没有 干扰 人 的 读 值 方法 和 设 值 方法 ， 看 起 来 舒服 多 了 。 


在 真实 的 系统 中 ， 分 散在 多 个 类 中 的 多 个 字段 可 能 做 同样 的 验证 ， 此 时 最 好 把 
quantity 工厂 函数 放 在 实用 工具 模块 中 ， 以 便 重复 使 用 。 最 终 可 能 要 重 构 那个 简单 的 工 
三 函数 ， 改 成 更 易 扩 展 的 描述 符 类 ， 然 后 使 用 专门 的 了 类 执行 不 同 的 验证 。 在 第 20 章 
中 ， 我 们 会 这 么 做 。 


下 面 要 分 析 删 除 属性 的 问题 ， 以 此 结束 对 特性 的 讨论 。 
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19.5 处理 属 性 删除 操作 


学 过 Python 教程 ， 我 们 知道 ， 对 象 的 属性 可 以 使 用 del 语句 删除 : 


del my_object.an_attribute 


其 实 ， 使 用 Python 编程 时 不 常 删 除 属性 ， 通 过 特性 删除 属性 更 少见 。 但 是 ，Python 支持 
这 么 做 ， 我 可 以 虚构 一 个 示例 ， 演 示 这 种 处 理 方式 。 

定义 特性 时 ， 可 以 使 用 @my_propety.deleter 装饰 器 包装 一 个 方法 ， 负 责 删除 特性 管理 
的 属性 。 下 面 兑现 承诺 ， 虚 构 一 个 示例 ， 说 明 如 何 定义 特性 删 值 方法 ， 如 示例 19-26 所 
ZN o 


示例 19-26 blackknightpy: 灵感 来 自 电 影 《 巨 购 与 圣杯 》 中 的 黑 衣 骑士 角色 




















































































































class BlackKnight: 


def _ init__(self): 
self.members = ['an arm', ‘another arm', 
‘a leg', ‘another leg'] 
self.phrases = ["'Tis but a scratch.", 
"It's just a flesh wound.", 
"I'm invincible!", 
"All right, we'll call it a draw."] 


@property 

def member(self): 
print('next member is:') 
return self.members[@] 


@member.deleter 
def member(self): 
text = “BLACK KNIGHT (loses {})\n-- {}' 
print (text. format(self.members.pop(@), self.phrases.pop(@))) 








blackknight.py 脚本 的 doctest 在 示例 19-27 中 。 





示例 19-27 blackknight.py: 示例 19-26 的 doctest〈 黑 衣 骑 士 从 不 屈服 ) 





>>> knight = BlackKnight() 

>>> knight.member 

next member is: 

"an arm' 

>>> del knight.member 

BLACK KNIGHT (loses an arm) 

-- 'Tis but a scratch. 

>>> del knight.member 

BLACK KNIGHT (loses another arm) 
-- It's just a flesh wound. 





>>> del knight.member 

BLACK KNIGHT (loses a leg) 

-- I'm invincible! 

>>> del knight.member 

BLACK KNIGHT (loses another leg) 

-- All right, we'll call it a draw. 








在 不 使 用 装饰 器 的 经 典 调用 句法 中 ，fdel 参数 用 于 设置 删 值 函数 。 例 如 ， 在 
BlackKnight 类 的 定义 体 中 可 以 像 下 面 这 样 创建 member 特性 : 


member = property(member_getter, fdel=member_deleter) 


如 果 不 使 用 特性 ， 还 可 以 实现 低层 特殊 的 delattr “方法 处 理 删除 属性 的 操作 ， 
19.6.3 节 。 留 给 喜欢 拖延 的 读者 一 个 练习 : 虚构 一 个 类 ， 定 义 delattr ”方法 。 


特性 是 个 强大 的 功能 ， 不 过 有 时 更 适合 使 用 简单 的 或 底层 的 蔡 代 方 案 。 在 本 章 的 最 后 一 
中 ， 我 们 将 回顾 Python 为 动态 属性 编程 提供 的 部 分 核心 API。 













































































19.6 ”处 理 属 性 的 重要 属性 和 函数 


本 章 及 本 书 前 面 的 章节 多 次 用 到 Python 为 处 理 动态 属性 而 提供 的 内 置 函 数 和 特殊 的 方 
法 。 这 些 函 数 和 方法 的 文档 散布 在 官方 文档 中 ， 因 此 我 专门 写 了 一 市 集中 介绍 它们 。 


19.6.1 ”影响 属性 处 理 方 式 的 特殊 属性 
后 面 几 节 中 的 很 多 函数 和 特殊 方法 ， 其 行为 受 下 述 3 个 特殊 属性 的 影响 。 
































Class _ 


对 象 所 属 类 的 引用 ( 即 obj._class _ 与 type(obj) 的 作用 相同 ) 。Python 的 某 些 
特殊 方法 ， 例 如 __getattr ， 只 在 对 象 的 类 中 寻找 ， 而 不 在 实例 中 寻找 。 








_dict 
一 个 映射 ， 存 储 对 象 或 类 的 可 写 属性 。 有 __dict __ 属性 的 对 象 ， 任 何 时 候 都 能 随意 


设置 新 属性 。 如 果 类 有 slots _ 属性， 它 的 实例 可 能 没有 dict 属性。 参见 下 面 
Xt slots _ 属性 的 说 明 。 




















__ slots _ 
TIDE SUR RIE, MSR MEE. slots _ 属性 的 信息 一 个 字符 


PARETA, TOTS YE. 14 We slots Fuk '__dict_', MAY 
的 实例 没有 __dict 属性， 实例 只 允许 有 指定 名 称 的 属性 。 
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14A lex Martelli #2 tH}, _ slots __ 属性 的 值 虽然 可 以 是 一 个 列表 ， 但 是 最 好 始终 使 用 元 组 ， 因 为 处 理 完 类 的 定义 体 之 后 
再 修改 slots _ 列表 没有 任何 作用 ， 所 以 使 用 可 变 的 序列 容易 让 人 误解 。 


19.6.2 处理 属性 的 内 置 函 数 
下 述 5 个 内置 函数 对 对 象 的 属性 做 读 、 写 和 内 省 操作 。 
dir([object]) 


列 出 对 象 的 大 多 数 属 性 。 官 方 文 档 
Chttps://docs.python.org/3/library/functions.html#dir) Ww, dir 函数 的 目的 是 交互 式 使 用 ， 
因此 没有 提供 完整 的 属性 列表 ， 只 列 出 一 组 “重要 的 ”属性 名 。dir 函数 能 审查 有 或 没有 
_ dict ”属性 的 对 象 。dir 函数 不 会 列 出 dict_ ”属性 本 身 ， 但 会 列 出 其 中 的 
fe. dir 函数 也 不 会 列 出 类 的 几 个 特殊 属性 ， 例 如 _mro ~ _ bases 和 name _ 
如 果 没 有 指定 可 选 的 object BAL, dir 函数 会 列 出 当前 作用 域 中 的 名 称 。 






















































































getattr(object, name[, default]) 


从 object 对 象 中 获取 name 字符 串 对 应 的 属性 。 获 取 的 属性 可 能 来 自 对 象 所 属 的 类 




















或 超 类 。 如 果 没 有 指定 的 属性 ，getattr 函数 抛 出 AttributeError 异常 ， 或 者 返回 
default 参数 的 值 (如 果 设 定 了 这 个 参数 的 话 ) 。 











hasattr(object, name) 


如 果 object 对 象 中 存在 指定 的 属性 ， 或 者 能 以 某 种 方式 〈 例 如 继承 ) 通过 object 
对 象 获取 指定 的 属性 ， 返 回 True。 文 档 
(https://docs.python.org/3/library/functions.html#hasattr) 说 道 : “这 个 函数 的 实现 方法 是 调 
用 getattr(object, name) 函数 ， 看 看 是 否 抛 出 AttributeError 异常 。” 





























setattr(object, name, value) 


把 object 对 象 指定 属性 的 值 设 为 value， 前 提 是 object 对 象 能 接受 那个 值 。 这 个 
函数 可 能 会 创建 一 个 新 属性 ， 或 者 覆盖 现 有 的 属性 。 





























vars([object]) 


返回 object 对 象 的 _ dict 属性， 如 果实 例 所 属 的 类 定义 了 _ slots ”属性 ， 
实例 没有 __dict _ 属 性， 那么 vars 函数 不 能 处 理 那 个 实例 〈 相 反 ，dir 函数 能 处 理 这 
样 的 实例 ) 。 如 果 没 有 指定 参数 ， 那 么 vars() 函数 的 作用 与 locals() 函数 一 样 : 返回 
表示 本 地 作用 域 的 字典 。 


19.6.3 处理 属性 的 特殊 方法 
在 用 户 自 己 定义 的 类 中 ， 下 述 特殊 方法 用 于 获取 、 设 置 、 删 除 和 列 出 属 ! 
使 用 点 号 或 内 置 的 getattr、hasattr 和 setattr 函数 存 取 属性 都 会 触发 下 述 列 表 中 相 
应 的 特殊 方法 。 但 是 ， 直 接 通 过 实例 的 _ dict_ _ 属性 读 写 属性 不 会 触发 这 些 特殊 方法 
通常 会 使 用 这 种 方式 跳 过 特殊 方法 。 


Python 文档 “Data model” 一 章 中 的 “3.3.9. Special method lookup” 一 节 
Chttps://docs.python.org/3/reference/datamodel.html#special-method-lookup) 警告 说 : 


对 用 户 自 己 定义 的 类 来 说 ， 如 果 隐 式 调 用 特殊 方法 ， 仅 当 特 殊 方法 在 对 象 所 属 的 类 型 
定义 ， 而 不 是 在 对 象 的 实例 字典 中 定义 时 ， 才 能 确保 调用 成 功 。 


要 假定 特殊 方法 从 类 上 获取 ， 即 便 操作 目标 是 实例 也 是 如 此 。 因 此 ， 特 殊 方 法 
会 被 同名 实例 属性 遮盖 。 


述 示例 中 ， 假 设 有 个 名 为 Class 的 类 ，obj 是 Class 类 的 实例 ，attr 是 obj 的 属 












































































































































不 管 是 使 用 点 号 存 取 属 性 ， 还 是 使 用 19.6.2 节 列 出 的 某 个 内 置 函 数 ， 都 会 触发 下 述 特殊 方 
法 中 的 一 个 。 例 如 ，obj .attr 和 getattr(obj, ‘attr', 42) 都 会 触发 
Class... getattribute ob， 'attr' ) Wik. 











__delattr__(self, name) 








只 要 使 用 del 语句 删除 属性 ， 就 会 调用 这 个 方法 。 例 如 ，del obj.attr 语句 触发 
Class. delattr (obj, ‘attr') 方法 。 





ir (self) 


把 对 象 传 给 dir 函数 时 调用 ， 列 出 属性 。 例 如 ，dir(obj) 触发 
Class. dir (obj) 方法。 








__getattr__(self, name) 


仅 当 获取 指定 的 属性 失败 ， 搜 索 过 obj. Class 和 超 类 之 后 调用 。 表 达 式 
obj.no_such_attr. getattr(obj, 'no_such attr') #ll hasattr(obj, 
‘no_such_attr') 可 能 会 触发 Class. getattr (obj, 'no_such_attr') 方法 ， 但 
是 ， 仅 当 在 obj. Class 和 超 类 中 找 不 到 指定 的 属性 时 才 会 触发 。 




















__getattribute_ (self, name) 


尝试 获取 指定 的 属性 时 总 会 调用 这 个 方法 ， 不 过 ， 寻 找 的 属性 是 特殊 属性 或 特殊 方法 
时 除外 。 点 号 与 getattr 和 hasattr 内 置 函 数 会 触发 这 个 方法 。 调 用 
_ getattribute _ 方法 且 抛 出 AttributeError 异常 时 ， 才 会 调用 getattr 方 
去 。 为 了 在 获取 obj 实例 的 属性 时 不 导致 无 限 递归 ， ee oe 方法 的 实现 要 
使 用 super(). getattribute (obj, name). 
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__setattr__(self, name, value) 


尝试 设置 指定 的 属性 时 总 会 调用 这 个 方法 。 点 号 和 setattr 内 置 函数 会 触发 这 
法 。 例 如 ，obj.attr = 42 和 setattr(obj, ‘attr’ » 42) 都 会 触发 
Class. setattr (obj, ‘attr’, 42) 方法 。 





























和 其 实 ， 特 殊 方 法 ”getattribute 和 setattr _ 不 管 怎样 都 会 调用 ， 几 
平 会 影响 每 一 次 属性 存 取 ， 因 此 比 ”getattr _ 方法 (只 处 理 不 存在 的 属性 名 ) 更 
难 正确 使 用 。 与 定义 这 些 特殊 方法 相 比 ， 使 用 特性 或 描述 符 相 对 不 易 出 错 。 


我 们 对 特性 、 特 殊 方法 和 其 他 动态 属性 编程 技术 的 讨论 到 此 结束 。 


















































19.7 本 章 小 结 


本 章 的 话题 是 动态 属性 编程 。 我 们 首先 举 了 几 个 实例 ， 定 义 了 几 个 简单 的 类 ， 简 化 处 理 

JSON 数据 源 的 方式 。 第 一 个 示例 是 FrozenJSON 类 ， 把 和 藤 套 的 字典 和 列表 转换 成 嵌 套 的 

FrozenJSON 实例 和 实例 列表 。FrozenJSON 类 的 代码 展示 了 如 何 使 用 特殊 的 

_ getattr_ _ 方法 在 读 取 属 性 时 即时 转换 数据 结构 。FrozenJSON 类 的 最 后 一 版 展示 了 

ae new 构造 方法 把 一 个 类 转换 成 一 个 灵活 的 对 象 工厂 函数 ， 不 受 实例 本 身 的 
制 。 


然后 ， 我 们 把 ISON 源 转换 成 一 个 shelve.Shelf 数据 库 ， 把 序列 化 的 Record 实例 存在 
里 面 。 第 1 版 Record 类 只 有 几 行 代码 ， 介 绍 了 “集束 ”惯用 法 : 使 用 传 给 ”init _ 方法 
的 关键 字 参 数 ， 调 用 self. dict __.update(**kwargs) 构建 任意 属性 。 这 个 示例 的 第 
2 版 对 Record 类 做 了 扩展 : 一 个 是 DbRecord 类 ， 和 集成 数据 库 操作 ; 男 一 个 是 Event 
类 ， 通 过 特性 自动 获取 所 链接 的 记录 。 


接着 ， 本 章 讨论 了 特性 。 我 们 定义 的 LineItem 类 中 有 个 特性 ， 确 保 weight 属性 的 值 不 
能 是 对 业务 没有 意义 的 负数 或 零 。 然 后 ， 我 们 深入 说 明了 特性 的 句法 和 语义 。 随 后 ， 创 建 
了 一 个 特性 工厂 函数 ， 在 不 定义 多 个 读 值 方法 和 设 值 方法 的 前 提 下 ， 对 weight 和 price 
属性 做 相同 的 验证 。 那 个 特性 工厂 函数 用 到 了 几 个 精妙 的 概念 ， 例 如 闭 包 和 被 特性 履 盖 的 
提供 了 优雅 的 通用 方案 ， 代 码 行 数 与 用 手工 编码 的 特性 来 验证 单个 属性 的 一 样 


最 后 ， 我 们 简要 说 明了 如 何 使 用 特性 处 理 删 除 属性 的 操作 ， 随 后 概览 了 Python 核心 语言 
为 文 持 属性 元 编程 而 提供 的 重要 的 特殊 属性 、 内 置 函数 和 特殊 方法 。 


































































































































































































19.8 延伸 阅读 


属性 处 理 和 内 置 的 内 省 函数 的 官方 文档 在 Python 标准 库 文 档 的 第 2 章 中 ， 题 为 “Builtin 

Functions” Chttps://docs.python.org/3/library/functions.html) 。 相 关 的 特殊 方法 和 特殊 的 

_ slots_ _ 属性 在 Python 语言 参考 手册 中 的 “3.3.2. Customizing attribute access” 一 节 
(https://docs.python.org/3/reference/datamodel.html#customizing-attribute-access ) 里 说 明 。 调 

用 特殊 方法 会 跳 过 实例 的 语意 原因 在 “3.3.9. Special method lookup” 一 节 
(https://docs.python.org/3/reference/datamodel.html#special-method-lookup) 中 说 明 。 在 

Python 标准 库 文 档 的 第 4 章 “Built-in Types” Æ, “4.13. Special Attributes” 一 节 
(https://docs.python.org/3/library/stdtypes.html#special-attributes) 说 明了 class fll 

dict _ 属性。 


























David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 版 ) Ich) —BHAILAR 
容 涉 及 本 章 的 话题 ， 不 过 我 要 重点 提出 三 个 : “8.8 在 子 类 中 扩展 属性 ”， 解 决 了 在 继承 自 
超 类 的 特性 中 禾 盖 方法 这 个 棘手 问题 ; “8.15 委托 属性 的 访问 ”， 实 现 了 一 个 代理 类 ， 展 示 
SAB 19.6.3 节 所 列 的 大 多 数 特殊 方法 ;还 有 出 色 的 “9.21 避免 出 现 重 复 的 属性 方法 "一 
节 ， 示 例 19-24 中 定义 的 特性 工厂 函数 就 以 那 一 节 为 基础 。 


Alex Martelli 写 的 《Python 技术 手册 (第 2 版 》 只 涵盖 了 Python 2.5， 不 过 基础 知识 也 适 
用 于 Python 3。 他 写 书 的 风格 严谨 而 客观 ， 讲 到 特性 时 ， 只 用 了 3 页 ， 但 这 是 由 于 那 本 书 
采用 了 符合 逻辑 的 行文 方式 : 之 前 的 15 页 已 经 对 Python 的 类 做 了 详尽 的 说 明 ， 包 括 描述 
符 ， 而 特性 就 是 使 用 描述 符 实现 的 。 因 此 讲 到 特性 时 ， 他 可 以 在 3 页 的 篇 幅 中 发 表 很 多 见 
解 ， 例 如 本 章 开 篇 引用 的 那 句 话 。 


本 章 开 头 引 用 的 统一 访问 原则 定义 出 自 Bertrand Meyer 的 优秀 著作 Object-Oriented 
Software Construction, Second Edition (Prentice-Hall 出 版 社 ) 。 这 本 书 超过 1250 页 ， 我 承 
认 我 没有 读 完 ， 不 过 前 六 章 对 面向 对 象 分 析 和 设计 相关 概念 的 介绍 是 我 见 过 最 好 的 之 一 ， 
第 11 章 介绍 了 契约 式 设 计 〈Meyer 发 明了 这 种 设计 方法 ， 创 造 了 这 个 术语 ) ， 第 35 HEY 
述 了 他 对 重要 的 面向 对 象 语言 的 评价 ， 包 括 Simula, Smalltalk, CLOS (Lisp 的 面向 对 象 
扩展 ) 、 Objective-C. C++ 和 Java， 还 对 其 他 语言 做 了 简要 评述 。 他 还 发 明了 伪 伪 代码 

(pseudo- pseudocode) ， 直 到 那 本 书 的 最 后 一 页 他 才 披 露 ， 全 书 用 于 编写 伪 代 码 的 句法 
其 实 出 自 Eiffel 语言 。 



















































































杂谈 


站 在 美学 的 角度 来 看 ，Meyer 提出 的 统一 访问 原则 CUnifrom Access Principle， 喜 欢 
简称 的 人 有 时 称 之 为 UAP) 很 吸引 人 。 作 为 使 用 API 的 程序 员 ， 我 不 应 该 关心 
coconut.price 只 是 获取 数据 属性 还 是 执行 计算 。 但 是 ， 作 为 消费 者 和 公民 ， 我 应 
该 关心 : 在 电子 商务 发 达 的 今天 ，coconut .price 的 值 通常 取决 于 这 个 问题 由 谁 提 
出 ， 因 此 它 绝 不 仅仅 是 个 数据 属性 。 其 实 ， 如 果 查 询 来 自 网 店 外 部 (例如 比价 引 
擎 ) ， 价 格 通常 会 低 一 些 。 显 然 ， 这 对 喜欢 浏览 特定 网 店 的 忠实 消费 者 来 说 ， 利 益 受 
到 了 损害 。 但 是 我 不 同意 。 


前 一 段 离 题 了 ， 可 是 却 提 出 了 与 编程 有 关 的 问题 : 虽然 统一 访问 原则 在 理想 的 世界 中 
完全 合理 ， 但 在 现实 中 ，API 的 用 户 可 能 需要 知道 读 取 coconut .price 是 否 太 耗 资 

































































源 或 时 间 。Ward Cunningham 的 维基 Chttp://c2.com/cgi/wiki?Welcome Visitors) 对 软件 
工程 方面 的 话题 有 很 多 独到 的 见解 ， 他 对 统一 访问 原则 的 功 过 也 做 了 富有 洞察 力 的 论 
i Chttp://c2.com/cgi/wiki?UniformAccessPrinciple) 。 


在 面向 对 象 编程 语言 中 ， 是 否 遵守 统一 访问 原则 通常 体现 在 句法 上 : 究竟 是 读 取 公开 
的 数据 属性 ， Capra my 


Smalltalk 和 Ruby 使 用 简单 而 优雅 的 方式 解决 这 个 问题 ， 根 本 不 支持 公开 的 数据 属 
性 。 在 这 两 门 语言 中 ， 所 有 实例 属性 都 是 私有 的 ， 因此 必 须 通过 方法 来 存 取 。 不 过 ， 
这 两 门 语言 的 句法 把 这 个 过 程 变 得 毫 不 费力 : 在 Ruby 中 ，coconut.price 会 调用 读 
值 方法 price; 在 Smalltalk 中 ， 只 需 使 用 coconut price. 


Java 采用 的 是 另 一 种 方式 ， 让 程序 员 在 四 种 访问 级 别 修 饰 符 中 选择 。!5 不 过 ， 普 通 
大 众 并 不 认同 Java 设计 者 制定 的 这 种 句法 。Java 世界 的 人 都 认为 ， 属 性 应 该 是 私有 
的 ， 但 是 每 一 次 都 要 写 出 private， 因 为 这 不 是 默认 的 访问 级 别 。 如 果 所 有 属性 都 
是 私有 的 ， 那 么 从 类 外 部 访问 属性 就 必须 使 用 存 取 方 法 。Java IDE 提供 了 自动 生成 存 
取 方 法 的 快捷 方式 。 但 是 ， 六 个 月 后 不 得 个 阅读 代码 时 ， IDE 没有 多 大 帮助 。 我 们 要 
ee ee 个 ， 添 加 实现 某 些 业务 逻辑 所 需 的 


ape EERDER AIR AE, oe T Python 社区 中 大 多 数 人 的 心 
。 他 举 了 下 面 两 个 例子 ， 外 观 差 异 很 大 ， 但 是 作用 相同 : 

















































































































someInstance.widgetCounter += 1 
# 而 不 用 .…. 
someInstance.setwidgetCounter(someInstance.getWidgetCounter() + 1) 























设计 API 时 ， 我 有 时 会 想 ， 能 否 把 没有 参数 CRT self) 、 一 个 值 〈 除 了 
None) 的 纯 函 数 〈 即 没有 副作用 ) 蔡 换 成 只 读 特 性 。 

H, LineItem.subtotal 方法 (如 示例 19-23 所 示 ) 就 可 以 替换 成 只 读 特 性 。 当 
然 ， 用 于 修改 对 象 的 方法 (如 my_list.clear()) 不 在 此 列 。 把 这 样 的 方法 变 成 特 
性 是 个 糟糕 的 想法 ， 因 为 直接 访问 my_list.clear 就 会 删除 列表 中 的 内 容 。 


在 GPIO JÆ Pingo.io Chttp://www.pingo.io/docs/, 3.4.2 节 提 过 ) 中 ， 多 数 用 户 级 别 的 
API 都 基于 特性 实现 。 例 如 ， 为 了 读 取 模拟 针脚 的 当前 值 ， 用 户 要 编写 pin.value; 
为 了 设置 数字 针脚 的 模式 ， 要 写成 pin.mode = 0UT。 在 背后 ， 读 取 模 拟 针脚 的 值 或 
设置 数字 针脚 的 模式 可 能 涉及 大 量 代 码 ， 这 取决 于 具体 的 主板 驱动 。 我 们 决定 在 
Pingo 中 使 用 特性 ， 是 因为 我 们 想 让 API 用 起 来 舒服 ， 即 便 是 在 iPython 

Notebook 《http://ipython.org/notebook.html〉 等 交互 环境 中 也 是 如 此 ， 而 且 我 们 觉得 
pin.mode = OUT 看 起 来 和 输入 起 来 都 比 pin. set_mode(OUT) 容易 。 

我 觉得 Smalltalk 和 Ruby 的 处 理 方式 很 简洁 ， 但 也 认为 Python 的 人 处理 方式 比 Java 更 
合理 。 一 开始 ， 我 们 可 以 从 简单 的 方式 入 手 ， "o a 因为 我 
们 知道 这 些 属 性 可 以 使 用 特性 《或 下 一 章 讨 论 的 描述 符 ) 来 包装 。 


方法 比 new 运算 符 好 

































































在 Python 中 还 有 一 处 体现 了 统一 访问 原则 《或 者 它 的 变 体 ) : 函数 调用 和 对 象 实例 
化 使 用 相同 的 句法 一 一 my_obj = foo()， 其 中 foo 是 类 或 其 他 可 调用 的 对 象 。 


受 C++ 句法 影响 的 其 他 语言 提供 了 new beanie 致使 实例 化 不 像 是 调用 。 
候 ，API 的 用 户 不 关心 foo 是 函数 还 是 类 。 直 到 最 近 ， 我 才 意 识 到 ，property 是 
函数 。 在 常规 的 用 法 中 ， 


把 构造 方法 替换 成 工厂 方法 有 很 多 充足 的 理由 。]L 一 个 重要 的 原因 是 ， 通 过 返回 之 
前 构建 的 实例 ， 限 制 实例 的 数量 〈 体 现 了 单 例 模式 ) 。 有 个 相关 的 功能 是 ， 组 存 构建 
过 程 开 销 大 的 对 象 。 此 外 ， 有 时 便于 根据 指定 的 参数 返回 不 同类 型 的 对 象 。 


定义 构造 方法 较为 简单 ， 提 供 工 厂 方法 虽然 增加 了 灵活 性 ， 但 是 要 编写 更 多 的 代码 。 
在 有 new 运算 符 的 语言 中 ，API 的 设计 者 必须 提前 决定 : 究竟 是 坚持 使 用 简单 的 构造 
方法 ， 还 是 投入 工厂 方法 的 怀抱 。 如 果 一 开始 选择 错 了 ， 那 么 修正 的 代价 可 能 很 大 

一 一 这 一 切 都 因为 new 是 运算 符 。 


有 时 可 能 更 适合 走 另 一 条 路 ， 把 简单 的 函数 换 成 类 。 
在 Python 中 ， 很 多 情况 下 类 和 函数 可 以 互 换 。 这 不 仅 是 因为 Python 没有 new 运算 


符 ， 还 因为 有 特殊 的 ”new ”方法 ， 可 以 把 类 变 成 工厂 方法 ， 生 成 不 同类 型 的 对 象 
(如 19.1.3 节 所 述 ) ， 或 者 返回 事先 构建 好 的 实例 ， 而 不 是 每 次 都 创建 一 个 新 实例 。 



































































































































如 果 “PEP 8 一 Style Guide for Python Code” (https://www.python.org/dev/peps/pep- 
0008/#class-names) 不 推荐 类 名 使 用 驼峰 式 〈CamelCase) ， 那 么 函数 与 类 的 对 偶 性 
更 易于 使 用 。 不 过 ， 标 准 库 中 有 很 多 类 的 名 称 是 小 写 的 (例如 
property、str、defaultdict， 等 等 ) ， 因 此 ， 使 用 小 写 的 类 名 可 能 是 个 特色 ， 
但 是 ， 不 管 怎么 看 ， Pion ERE IOS CIR 致 会 导致 可 用 
性 问题 。 


虽然 调用 函数 与 调用 类 没有 区 别 ， 但 是 最 好 知道 哪个 是 哪个 ， 因 为 类 还 有 一 个 功能 : 
子 类 化 。 因 此 ， a a ENRE MHAE Python 标准 库 中 的 所 
有 类 也 使 用 这 一 约定 。 我 在 盯 着 你 呢 ，collections.OrderedDict 和 
collections. ees 























415 包括 没有 名 称 的 默认 级 别 ，Java BORE Chttp://docs.oracle.com/javase/tutorial/java/javaOO/accesscontroLhtml) 称 其 为 “ 包 级 
私有 ”。 
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我 将 要 提 到 的 原因 出 自 Jonathan Amsterdam 发 布 在 Dr. Dobbs Journal 中 的 一 篇 文章 ， 题 为 “Java's new Considered 
Harmful” es drdobbs.com/javas-new-considered-harmful/184405016) ， 以 及 Joshua Bloch 写 的 获奖 图 书 Effective 
Java 中 的 第 一 条 ,，“ 考 虑 用 静态 工厂 方法 代替 构造 函数 ”。 






































第 20 音 RIER 


ERREI CIA, 个 仅 有 更 多 的 工具 集 可 用 ， 还 会 对 Python 的 运作 方式 有 更 深入 的 
理解 ， 并 由 衷 赞叹 Python 设计 的 优雅 。 






































Raymond Hettinger 
Python 核心 开发 者 和 专家 


1 摘自 Raymond Hettinger 写 的 “Descriptor HowTo Guide” (https://docs.python.org/3/howto/descriptor.html) 。 























描述 符 是 对 多 个 属性 运用 相 Pea 的 一 种 方式 。 例 如 ，Django ORM 和 SQL Alchemy 
~ 中 的 字段 类 型 是 描述 符 ， 把 数据 库 记 录 中 字段 里 的 数据 与 Python 对 象 的 属性 对 应 


描述 符 是 实现 了 特定 协议 的 类 ， 这 个 协 议 包括 get 、 set 和 —felete_ 方 
法 。property 类 实现 了 完整 的 描述 符 协 \ 议 。 通 常 ， 可 以 只 实现 部 分 协议 。 其 实 ， 我 们 在 
a e 的 大 多 数 描述 符 只 实现 了 get 和 set 方法 ， 还 有 很 多 只 实现 
了 其 中 的 一 人 


描述 符 是 Python 的 独 有 特征 ， 不 仅 在 应 用 层 中 使 用 ， 在 语言 的 基础 设施 中 也 有 用 到 。 
了 特性 之 外 ， 使 用 描述 符 的 Python 功能 还 有 方法 及 classmethod 和 staticmethod 
器 。 理 解 描述 符 是 精通 Python 的 关键 。 本 章 的 话题 就 是 描述 符 。 

































































20.1 描述 符 示 例 : 验证 属性 


如 19.4 节 所 示 ， 特 性 工厂 函数 借助 函数 式 编程 模式 避免 重复 编写 读 值 方法 和 设 值 方法 。 
特性 工厂 函数 是 高 阶 函数 ， 在 闭 包 中 存储 storage name 等 设置 ， 由 参数 决定 创建 哪些 
存 取 函数 ， 再 使 用 存 取 函数 构建 一 个 特性 实例 。 解 决 这 种 问题 的 面向 对 象 方式 是 描述 符 
ZR o 














这 里 继续 19.4 节 的 LineItem 系列 示例 ， 把 quantity 特性 工厂 函数 重 构成 Quantity 描 
述 符 类 。 
20.1.1 LineItem 类 第 3 版 : 一 个 简单 的 描述 符 


实现 了 _get_~ _set_R_ delete “方法 的 类 是 描述 符 。 描 述 符 的 用 法 是 ， 创 建 
一 个 实例 ， 作 为 另 一 个 类 的 类 属性 。 


我 们 将 定义 一 个 Quantity 描述 符 ，LineItem 类 会 用 到 两 个 Quantity 实例 : 一 个 用 于 
管理 weight 属性 ， 另 一 个 用 于 管理 price 属性 。 示 意图 有 助 于 理解 ， 如 图 20-1 所 示 。 


描述 符 类 > 托管 类 “= 
i 
«descriptor» 


description 


BP a a aia 


int =_= 
int 
subtotal 


20-1: LineItem 类 的 UML 示 意图， 用 到 了 名 为 Quantity 的 描述 符 类 。UML 示意 
中 带 下 划 线 的 属性 是 类 属性 。 注 意 ，weight 和 price 是 依附 在 LineItem 类 上 的 
Quantity 类 的 实例 ， 不 过 LineItem 实例 也 有 自己 的 weight 和 price 属性 ， 存 储 着 
相应 的 值 

注意 ， 在 图 20-1 中 ，“weight* 这 个 词 出 现 了 两 次 ， 因 为 其 实 有 两 个 不 同 的 属性 都 叫 
weight: 一 个 是 LineItem 的 类 属性 ， 另 一 个 是 各 个 LineItem 对 象 的 实例 属性 。price 
也 是 如 此 。 


从 现在 开始 ， 我 会 使 用 下 述 定义 。 








































































描述 符 类 


实现 描述 符 协 议 的 类 。 在 图 20-1 中 ， 是 Quantity 类 。 





把 描述 符 实 例 声 明 为 类 属性 的 类 一 -图 20-1 中 的 LineItem 类 。 
描述 符 实 例 


描述 符 类 的 各 个 实例 ， 声 明 为 托管 类 的 类 属性 。 在 图 20-1 中 ， 各 个 描述 符 实例 使 用 
箭头 和 带 下 划 线 的 名 称 表 示 〈 在 UML 中 ， 下 划 线 表示 类 属性 ) 。 与 黑色 菱形 接触 的 
LineItem 类 包含 描述 符 实例 。 























托管 类 的 实例 。 在 这 个 示例 中 ，LineItenm 实例 是 托管 实例 〈 没 在 类 图 中 展示 ) 。 





储存 属性 


托管 实例 中 存储 自身 托管 属性 的 属性 。 在 图 20-1 中 ，LineItem 实例 的 weight 和 
price 属性 是 储存 属性 。 这 种 属性 与 描述 符 属 性 不 同 ， 描 述 符 属性 都 是 类 属性 。 















































托管 属性 
托管 类 中 由 描述 符 实例 处 理 的 公开 属性 ， 值 存储 在 储存 属性 中 。 也 就 是 说 ， 描 述 符 实 
例 和 储存 属性 为 托管 属性 建立 了 基础 。 


Quantity 实例 是 LineItem 类 的 类 属性 ， 这 一 点 一 定 要 理解 。 图 20-2 中 的 机 器 和 小 怪兽 
强调 了 这 个 关键 点 。 
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20-2: 带 有 MGN (Mills & Gizmos Notation， 机 器 和 小 怪兽 图 示 法 ) 注解 的 UML 类 
图 : 类 是 机 器 ， 用 于 生产 小 怪兽 (实例 ) 。Quantity 机 器 生产 了 两 个 圆 头 的 小 怪 
兽 ， 依 附 到 LineItem 机 器 上 ， 即 weight 和 price。LineItem 机 器 生产 方 头 的 小 怪 
兽 ， 有 自己 的 weight 和 price 属性 ， 存 储 着 相应 的 值 








Milis & 
Gizmos 
Notation 











机 器 和 小 怪兽 图 示 法 介绍 


我 以 前 经 常 使 用 UML 解说 描述 符 ， 但 是 后 来 发 现 UML 无 法 很 好 地 展现 类 与 实例 之 间 
的 关系 ， 例 如 托管 类 与 描述 符 实例 之 间 的 关系 。? 所 以 ， 我 自己 发 明了 一 门 “ 语 
=” 机 器 和 小 怪兽 图 示 法 (Mills & Gizmos Notation, MGN) ， 使 用 它 注 解 UML 


示意 图 。 
MGN 的 目的 是 明确 区 分 类 和 实例 。 如 图 20-3 所 示 。 在 MGN 中 ， 类 画 成 “机 器 ”， 这 


是 一 种 复杂 的 设备 ， 用 于 生产 小 怪兽 。 类 〈 机 器 ) 都 是 有 操控 杆 和 刻度 盘 的 设备 。 小 
怪兽 是 实例 ， 外 观 更 简洁 。 小 怪兽 与 生产 它 的 机 器 具有 相同 的 颜色 。 


Nuis & 
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Notation 






































20-3: MGN 简 图 表示 ，LineItem 类 生产 了 三 个 实例 ，Quantity 类 生产 了 两 
个 实例 。 其 中 一 个 Quantity 实例 从 一 个 LineItem 实例 中 获取 存储 的 值 


在 这 个 示例 中 ， 我 把 LineItem 实例 画 成 表格 中 的 行 ， 各 有 三 个 单元 格 ， 表 示 三 个 属 
PME (description, weight 和 price) 。Quantity 实例 是 描述 符 ， 因 此 有 个 放大 
镜 ， 用 于 获取 值 (__get _)， 以 及 一 个 手 抓 ， 用 于 设置 值 (_set_) 。 讲 到 元 类 
时 ， 你 会 感谢 我 画 了 这 些 涂鸦 。 
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?在 UML 类 图 中 ， 类 和 实例 都 画 成 方 框 。 虽 然 视觉 上 有 区 别 ， 但 是 因为 类 图 中 很 少 出 现实 例 ， 所 以 开发 者 可 能 认 不 









































先 把 涂鸦 放 在 一 边 ， 来 看 代码 : 示例 20-1 是 Quantity 描述 符 类 和 新 版 LineItem 类 ， 
用 到 两 个 Quantity 实例 。 





示例 20-1 bulkfood v3.py: 使 用 Quantity 描述 符 管理 LineItem 的 属性 














class Quantity: @ 


def _ init__(self, storage_name): 
self.storage name = storage name @ 


def _set (self, instance, value): © 
if value > 6: 
instance. dict __[self.storage name] = value @ 
else: 
raise ValueError('value must be > Q') 





class LineItem: 
weight = Quantity('weight') © 
price = Quantity('price') © 


def init__(self, description, weight, price): @ 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 











O 描述 符 基 于 协议 实现 ， 无 需 创 建 子 类 。 
© Quantity 实例 有 个 storage_name 属性 ， 这 是 托管 实例 中 存储 值 的 属性 的 名 称 。 
O 尝试 为 托管 属性 赋值 时 ， 会 调用 set Wik. KH, self 是 描述 符 实例 〈 即 


人 和 


LineItem.weight =k LineItem.price) , instance 是 托管 实例 (LineItem 实 
Bi) , value 是 要 设 定 的 值 。 


个 这里， 必须 直接 处 理 托管 实例 的 “dict _ 属 性; 如 果 使 用 内 置 的 setattr 函数 ， 会 
再 次 触发 ”set ”方法 ， 导 致 无 限 递归 。 


O 第 一 个 描述 符 实例 绑 定 给 weight 属性 。 
O 第 二 个 描述 符 实例 绑 定 给 price 属性 。 
@ 类 定义 体 中 余下 的 代码 与 bulkfood_vl.py 脚本 ( 见 示例 19-15) 中 的 代码 一 样 简洁 。 


在 示例 20-1 中 ， 各 个 托管 属性 的 名 称 与 储存 属性 一 样 ， 而 且 读 值 方法 不 需要 特殊 的 逻 
辑 ， 所 以 Quantity 类 不 需要 定义 ”get _ 方法 。 


示例 20-1 中 的 代码 会 像 预 期 那样 运作 ， 禁 止 以 0 美元 销售 松露 : 3 


3 一 磅 白松 露 价值 几 千 美元 。 留 个 练习 给 有 进取 心 的 读者 : 不 准 以 0.01 美元 的 价格 销售 松露 。 我 认识 一 个 人 ， 他 以 18 
美元 买 到 了 价值 1800 美元 的 统计 学 百科 全 书 ， 因 为 那个 网 店 〈 不 是 亚马逊 ) 有 漏洞 。 
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>>> truffle = LineItem('White truffle', 100, @) 
Traceback (most recent call last): 


ValueError: value must be > 6 

















By 编写 set _ 方法 时 ， 要 记 住 self 和 instance 参数 的 意思 : self 是 描述 
符 实 例 ，instance 是 托管 实例 。 管 理 实 例 属 性 的 描述 符 应 该 把 值 存储 在 托管 实例 
中 。 因 此 ，Python 才 为 描述 符 中 的 那个 方法 提供 了 instance 参数 。 
















































































你 可 能 想 把 各 个 托管 属性 的 值 直接 存在 描述 符 实 例 中 ， 但 是 这 种 做 法 是 错误 的 。 也 就 是 
说 , Æ set “方法 中 ， 应 该 像 下 面 这 样 写 : 





























| instance. dict__[self.storage_name] = value 








而 不 能 试图 使 用 下 面 这 种 错误 的 写法 : 








| self. dict [self.storage name] = value 





























为 了 理解 错误 的 原因 ， 可 以 想 想 _ set_ _ 方法 前 两 个 参数 (self 和 instance) 的 意 
思 。 这 里 ，self 是 描述 符 实 例 ， 它 其 实 是 托管 类 的 类 属性 。 同 一 时 刻 ， 内 存 中 可 能 有 几 
于 个 LineItem 实例 ， 不 过 只 会 有 两 个 描述 符 实例 : LineItem.weight 和 
LineItem.price。 因 此 ， 存 储 在 描述 符 实例 中 的 数据 ， 其 实 会 变 成 LineItem 类 的 类 属 
性 ， 从 而 由 全 部 LineItem 实例 共享 。 


示例 20-1 有 个 缺点 ， 在 托管 类 的 定义 体 中 实例 化 描述 符 时 要 重复 输入 属性 的 名 称 。 如 果 
LineItem 类 能 像 下 面 这 样 声明 就 好 了 : 








































































































class LineItem: 
weight = Quantity() 
price = Quantity() 





# 余下 的 方法 与 之 前 一 样 








可 问题 是 ， 正 如 第 8 章 说 过 的 ， 赋 值 语 句 右手 边 的 表达 式 先 执行 ， 而 此 时 变量 还 不 存在 。 
Quantity() 表达 式 计算 的 结果 是 创建 描述 符 实例 ， 而 此 时 Quantity 类 中 的 代码 无 法 猜 
出 要 把 描述 符 绑 定 给 哪个 变量 《例如 weight 或 price) 。 


因此 ， 示 例 20-1 必须 明确 指明 各 个 Quantity 实例 的 名 称 。 这 样 不 仅 麻烦 ， 还 很 危险 : 
如 果 程 序 员 直 接 复 制 粘贴 代码 而 忘 了 编辑 名 称 ， 比 如 写成 price = 
Quantity('weight' )， 那 么 程序 的 行为 会 大 错 特 错 ， 设 置 price 的 值 时 会 覆盖 weight 
的 值 。 


下 一 节 会 介绍 一 个 不 太 优 雅 但 是 可 行 的 方案 ， 解 决 这 个 重复 输入 名 称 的 问题 。 更 好 的 解决 
方案 是 使 用 类 装饰 器 或 元 类 ， 等 到 第 21 章 再 介绍 。 

20.1.2 LineItem 类 第 4 版 :自动 获取 储存 属性 的 名 称 

为 了 避免 在 描述 符 声 明 语句 中 重复 输入 属性 名 ， 我 们 将 为 每 个 Quantity 实例 的 


storage_name 属性 生成 一 个 独一无二 的 字符 串 。 图 20-4 是 更 新 后 的 Quantity 和 
LineItem 类 的 UML 类 图 。 













































































































































Quantit description 
| _Quantity#0 {storage} 








í A 
| 获取 和 设置 托管 属性 
20-4: 示例 20-2 的 UML 类 图 。 现 在 ，Quantity 类 既 有 _ 方法 ， 也 有 











_ set_ 方法 ，LineItem 实例 中 储存 属性 的 名 称 是 生成 的 一 eee 和 
_Quantity#1 





为 了 生成 storage name, FIL) '_Quantity#' 为 前 级， 然后 在 后 面 拼 接 一 个 整数 : 
Quantity. counter 类 属性 的 当前 值 ， 每 次 把 一 个 新 的 Quantity 描述 符 实例 依附 到 
类 上 ， 都 会 递增 这 个 值 。 在 前 绥 中 使 用 井 号 能 避免 storage_name 与 用 户 使 用 点 号 创建 
的 属性 冲突 ， 因 为 nutmeg. Quantity#0 是 无 效 的 Python 句法。 但是， 内置 的 getattr 
和 setattr 函数 可 以 使 用 这 种 “无 效 的 ”标识 符 获取 和 设置 属性 ， 此 外 也 可 以 直接 处 理 实 
例 属性 _ dict__。 示 例 20-2 是 新 的 实现 。 























示例 20-2 bulkfood v4.py: 每 个 Quantity 描述 符 都 有 独一无二 的 storage_name 





class Quantity: 
_ counter = 6 @ 


def _ init__(self): 
cls = self. class @ 
prefix = cls. name _ 
index = cls. counter 
self.storage name = '_{}#{}'.format(prefix, index) © 
cls. counter += 1 @ 


def get (self, instance, owner): © 
return getattr(instance, self.storage name) © 


def _ set (self, instance, value): 
if value > ð: 
setattr(instance, self.storage name, value) @ 
else: 
raise ValueError('value must be > 6 ') 


class LineItem: 
weight = Quantity() © 
price = Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 





def subtotal(self): 
return self.weight * self.price 





@ counter Æ Quantity 类 的 类 属性 ， 统 计 Quantity 实例 的 数量 。 


@ cls 是 Quantity 类 的 引用 。 

















O 每 个 描述 符 实例 的 storage_name 属性 都 是 独一无二 的 ， 因 为 其 值 由 描述 名 
M counter 属性 的 当前 值 构 成 (例如 ，_Quantity#6) 。 


四 递增 counter 属性 的 值 。 


并 


类 的 名 称 


= 
ay 



































O 我 们 要 实现 get__ 方法 ， 因 为 托管 属性 的 名 称 与 storage_name 不 同 。 稍 后 会 说 明 


owner 参数 。 

@ 使 用 内 置 的 getattr 函数 从 instance 中 获取 储存 属性 的 值 。 

@ 使 用 内 置 的 setattr 函数 把 值 存储 在 instance 中 。 

@ 现在 ， 不 用 把 托管 属性 的 名 称 传 给 Quantity 构造 方法 。 这 是 这 一 版 的 目标 。 
这 里 可 以 使 用 内 置 的 高 阶 函 数 getattr 和 setattr 存 取 值 ， 无 需 使 用 


instance. dict ， 因 为 托管 属性 和 储存 属性 的 名 称 不 同 ， 所 以 把 储存 属 ' 
getattr 函数 不 会 触发 描述 符 ， 不 会 像 示 例 20-1 那样 出 现 无 限 递归 。 
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测试 bulkfood_v4.py 脚本 之 后 你 会 发 现 ，weight 和 price 描述 符 能 按 预期 使 用 ， 而 且 储 
存 属性 也 能 直接 读 取 一 一 这 对 调试 有 帮助 : 

















>>> from bulkfood_v4 import LineItem 

>>> coconuts = LineItem('Brazilian coconut’, 20, 17.95) 

>>> coconuts.weight, coconuts.price 

(20, 17.95) 

>>> getattr(coconuts, '_Quantity#0'), getattr(coconuts, ' Quantity#1') 
(20, 17.95) 





` 如 果 想 使 用 Python 矫正 名 称 的 约定 方式 〈 例 如 _LineItem_ quantity6) , 
要 知道 托管 类 〈 即 LineItem) 的 名 称 ， 可 是 ， 解 释 器 要 先 运行 类 的 定义 体 才 能 构建 
类 ， 因 此 创建 描述 符 实例 时 得 不 到 那个 信息 。 不 过 ， 对 这 个 示例 来 说 ， 为 了 防止 不 小 
心 被 子 类 覆盖 ， 不 用 包含 托管 类 的 名 称 ， 因 为 每 次 实例 化 新 的 描述 符 ， 描 述 符 类 的 
= aa 属性 都 会 递增 ， 从 而 确保 每 个 托管 类 的 每 个 储存 属性 的 名 称 都 是 独 一 无 


注意 ，_get _ 方法 有 三 个 参数 : self、instance 和 owner. owner 参数 是 托管 类 (如 
LineItem) 的 引用 ， 通 过 描述 符 从 托管 类 中 获取 属性 时 用 得 到 。 如 果 使 用 
LineItem.weight 从 类 中 获取 托管 属性 (以 weight 为 例 ) ， 描 述 符 的 ”get ”方法 接 











































































































J instance & zz None. ; 控制 台 会 话 才 会 ributeError = 
收 到 的 inst 参数 值 是 N 因此 ， 下 述 控制 台 会 话 才 会 抛 出 AttributeE 异 
Ay 
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>>> from bulkfood_v4 import LineItem 
>>> LineItem.weight 
Traceback (most recent call last): 


File ".../descriptors/bulkfood_v4.py", line 54, in _get_ 
return getattr(instance, self.storage_name) 
AttributeError: 'NoneType' object has no attribute '_Quantity#0' 











抛 出 AttributeError 异常 是 实现 ”get ”方法 的 方式 之 一 ， 如 果 选 择 这 么 做 ， 应 该 修 
改 错误 消息 ， 去 掉 令 人 困惑 的 NoneType 和 Quantity#6， 这 是 实现 细节 。 把 错误 消息 
改 成 "'LineItem' class has no such attribute" 更 好 。 最 好 能 给 出 缺少 的 属性 

名 ,但 是 在 这 个 示例 中 ， 描 述 符 不 知道 托管 属性 的 名 称 ， 因 此 目前 只 能 做 到 这 样 。 


此 外 ， 为 了 给 用 户 提 供 内 省 和 其 他 元 编程 技术 支持 ， 通 过 类 访问 托管 属性 时 ， 最 好 让 
get 方法 返回 描述 符 实例 。 示 例 20-3 对 示例 20-2 做 了 小 幅 改 动 ， 为 
Quantity. get 方法 添加 了 一 些 逻 辑 。 
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示例 20-3 ”bulkfood_v4b.py〔 只 列 出 部 分 代码 ) : 通过 托管 类 调用 时 ， _get_ 方法 
返回 描述 符 的 引用 




















class Quantity: 
__ counter = 6 


def _ init__(self): 
cls = self. class _ 
prefix = cls. name__ 
index = cls.__ counter 
self.storage_ name = '_{}#{}'.format(prefix, index) 
cls.__ counter += 1 


def _get_ (self, instance, owner): 
if instance is None: 
return self © 
else: 
return getattr(instance, self.storage name) @ 


def _ set (self, instance, value): 
if value > 6: 
setattr(instance, self.storage name, value) 
else: 
raise ValueError('value must be > 60') 











O 如 果 不 是 通过 实例 调用 ， 返 回 描述 符 自 身 。 
否则 ， 像 之 前 一 样 ， 返 回 托管 属性 的 值 。 
测试 示例 20-3， 会 看 到 如 下 结果 : 
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[>>> from bulkfood_v4b import LineItem 


>>> LineItem.price 

<bulkfood_v4b.Quantity object at @x100721be@> 
>>> br_nuts = LineItem('Brazil nuts', 10, 34.95) 
>>> br_nuts.price 

34.95 


























看 着 示例 20-2， 你 可 能 觉得 就 为 了 管理 几 个 属性 而 编写 这 么 多 代码 不 值得 ， 但 是 要 知 
道 ， 描 述 符 逻辑 现在 被 抽象 到 单独 的 代码 单元 ‘(Quantity 类 ) 中 了 。 通 常 ， 我 们 不 会 在 
使 用 描述 符 的 模块 中 定义 描述 符 ， 而 是 在 一 个 单独 的 实用 工具 模块 中 定义 ， 以 便 在 整个 应 
用 中 使 用 一 一 如 果 开 发 的 是 框架 ， 甚 至 会 在 多 个 应 用 中 使 用 。 


了 解 这 一 点 之 后 就 可 推 知 ， 示 例 20-4 是 描述 符 的 常规 用 法 。 


示例 20-4 bulkfood v4c.py: 整洁 的 LineItem 类 ; Quantity 描述 符 类 现在 位 于 导 
入 的 model_v4c 模块 中 

































































import model v4c as model @ 


class LineItem: 
weight = model.Quantity() @ 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 








@ 导入 model_v4c 模块 ， 指 定 一 个 更 友好 的 名 称 。 
四 使 用 model.Quantity 描述 符 。 


Django 用 户 会 发 现 ， 示 例 20-4 非常 像 模 型 定义 。 这 不 是 巧合 : Django 模型 的 字段 就 是 描 
述 符 。 














` 就 目前 的 实现 来 说 ，Quantity 描述 符 能 出 色 地 完成 任务 。 它 唯一 的 缺点 是 ， 

储存 属性 的 名 称 是 生成 的 (如 _Quantity#6)， 导致 用 户 难以 调试 但 这 是 不 得 已 
而 为 之 ， 如 果 想 自动 把 储存 属 征 的 名 和 尔 设 成 与 托管 属性 的 名 称 类 似 ， 需 要 用 到 类 装饰 
器 或 元 类 ， 而 这 两 个 话题 到 第 21 章 才 会 讨论 。 


描述 符 在 类 中 定义 ， 因 此 可 以 利用 继承 重用 部 分 代码 来 创建 新 描述 符 。 下 一 节 会 这 么 做 。 
特性 工厂 函数 与 描述 符 类 比较 


特性 工厂 函数 若 想 实现 示例 20-2 ee i 难 ， 只 需 在 示例 19-24 的 基 
础 上 添加 几 行 代码 。 _ counter 变量 的 实现 方式 是 个 难点 ， 不 过 我 们 可 以 把 它 定 







































































成 工厂 函数 对 象 的 属性 ， 以 便 在 多 次 调用 之 间 持 续 存 在 ， 如 示例 20-5 所 示 。 


示例 20-$ bulkfood_v4prop.py: 使 用 特性 工厂 函数 实现 与 示例 20-2 中 的 描述 
类 相同 的 功能 





R 
aR 














def quantity(): © 
try: 
quantity.counter += 1 @ 
except AttributeError: 
quantity.counter = 6 © 


storage name = ' {}:{}'.format('quantity', quantity.counter) @ 


def qty_getter(instance): © 
return getattr(instance, storage_name) 


def qty_setter(instance, value): 
if value > ð: 
setattr(instance, storage name, value) 
else: 
raise ValueError('value must be > 6 ') 


return property(qty_getter, qty_setter) 





@ IZA storage name 参数 。 


四 不 能 依靠 类 属性 在 多 次 调用 之 间 共 享 counter, AIMEE XA quantity 函数 
自身 的 属性 。 


© 如 果 quantity.counter 属性 未 定义 ， 把 值 设 为 6。 


@ 我 们 也 没有 实例 变量 ， 因 此 创建 一 个 局 部 变量 storage_name， 借 助 闭 包 保持 它 
的 值 ， 供 后 面 的 qty_getter 和 qty_setter 函数 使 用 。 


加 余下 的 代码 与 示例 19-24 一 样 ， 不 过 这 里 可 以 使 用 内 置 的 getattr 和 setattr K 
数 ， 而 不 用 处 理 instance. dict 属性。 


那么 ， 你 喜欢 哪个 ? 示例 20-2 还 是 示例 20-5 ? 


我 喜欢 描述 符 类 那 种 方式 ， 主 要 有 下 列 两 个 原因 。 














































































































。 描述 符 类 可 以 使 用 子 类 扩展 ; 若 想 重用 工厂 函数 中 的 代码 ， 除 了 复制 粘贴 ， 很 难 
































有 其 他 方法 。 


。 与 示例 20-5 中 使 用 函数 属性 和 闭 包 保持 状态 相 比 ， 在 类 属性 和 实例 属性 中 保持 
状态 更 易于 理解 。 


此 外 ， 解 说 示例 20-5 时 ， 我 没有 画 机 器 和 小 怪兽 的 动力 。 特 性 工厂 函数 的 代码 不 依 
赖 奇 怪 的 对 象 关系 ， 而 描述 符 的 方法 中 有 名 为 self 和 instance 的 参数 ， 表 明 里 面 
涉及 奇怪 的 对 象 关 系 。 













































































总 之 ， 从 茶 种 程度 上 来 讲 ， 特 性 工厂 函数 模式 较 简 单 ， 可 是 描述 符 类 方式 更 易 扩 展 ， 
而 且 应 用 也 更 广泛 。 











20.1.3 LineItem 类 第 $ 版 : 一 种 新 型 描述 符 


我 们 虚构 的 有 机 食物 网 店 遇 到 一 个 问题 : 不 知 怎么 回 事 儿 ， 有 个 商品 的 描述 信息 为 空 ， 导 
致 无 法 下 订单 。 为 了 避免 出 现 这 个 问题 ， 我 们 要 再 创建 一 个 描述 符 ，NonBlank。 在 设计 
NonBlank 的 过 程 中 ， 我 们 发 现 ， 它 与 Quantity 描述 符 很 像 ， 只 是 验证 逻辑 不 同 。 


回想 Quantity 的 功能 ， 我 们 注意 到 它 做 了 两 件 不 同 的 事 : 管理 托管 实例 中 的 储存 属 
以 及 验证 用 于 设置 那 两 个 属性 的 值 。 由 此 可 知 ， 我 们 可 以 重 构 ， 并 创建 两 个 基 类 。 
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od 





























AutoStorage 
自动 管理 储存 属性 的 描述 符 类 。 


Validated 












































扩展 AutoStorage 类 的 抽象 子 类 ， 禾 盖 ”set _ 方法 ， 调 用 必须 由 子 类 实现 的 
validate 方法 。 





我 们 稍 后 会 重 写 Quantity 类 ， 并 实现 NonBlank， 让 它 继承 Validated 类 ， 只 编写 


validate 方法 。 类 之 间 的 关系 见 图 20-5。 
«descriptor» 
Quantit 


| 
validate | 


«descriptor» 
NonBlank 
validate 


图 20-5: 几 个 描述 符 类 的 层次 结构 。AutoStorage 基 类 负责 自动 存储 属 
PE; Validated 类 做 验证 ， 把 职责 委托 给 抽象 方法 validate; Quantity 和 
NonBlank 是 Validated 的 具体 子 类 
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«descriptor» 

Validated 
__ set__ 
validate 












































Validated, Quantity 和 NonBlank 三 个 类 之 间 的 关系 体现 了 模板 方法 设计 模式 。 有 具体 
而 言 ，Validated. set _ 方法 正 是 Gamma 等 四 人 所 描述 的 模板 方法 的 例证 : 


记 个 模板 法 用 一 些 抽象 的 换 作 定义 一 个 算法 ， 而 子 类 将 重 定义 这 些 操作 以 提供 具体 
WEN. 






























































4《 设 计 模 式 : 可 复 用 面向 对 象 软件 的 基础 》 第 215 页 。 











这 里 ， 抽 象 的 操作 是 验证 。 示 例 20-6 列 出 图 20-5 中 各 个 类 的 实现 。 











示例 20-6 model v5.py: 重 构 后 的 描述 符 类 5 





























TRI 























5 因为 20.5 节 有 文档 字符 串 的 截图 ， 为 了 保持 一 致 ， 所 以 这 里 的 文档 字符 串 不 翻译 。 


























import abc 


class AutoStorage: © 
__ counter = 6 


def _ init__(self): 
cls = self. class _ 
prefix = cls. name _ 
index = cls. counter 
self.storage name = '_{}#{}'.format(prefix, index) 
cls.__ counter += 1 


def get (self, instance, owner): 
if instance is None: 
return self 
else: 
return getattr(instance, self.storage_name) 


def _set_ (self, instance, value): 
setattr(instance, self.storage name, value) @ 


class Validated(abc.ABC, AutoStorage): © 


def _set_ (self, instance, value): 
value = self.validate(instance, value) @ 
super().__set_ (instance, value) © 


@abc.abstractmethod 
def validate(self, instance, value): @ 
"""neturn validated value or raise ValueError 


class Quantity(Validated): @ 
"""a number greater than zero""" 
def validate(self, instance, value): 
if value <= @: 
raise ValueError('value must be > Q') 
return value 


class NonBlank(Validated) : 

"""a string with at least one non-space character""" 
def validate(self, instance, value): 

value = value.strip() 

if len(value) == 





raise ValueError('value cannot be empty or blank’) 
return value © 

















@ AutoStorage 类 提供 了 之 前 Quantity 描述 符 的 大 部 分 功能 .……… 
@..... 验证 除外 。 


@ validated 是 抽象 类 ， 不 过 也 继承 自 AutoStorage 类 。 


























Oset 方法 把 验证 操作 委托 给 validate 方法 .…… 

全 ..….. 然 后 把 返回 的 value 传 给 超 类 的 ”set 方法， 存储 值 。 
@ 在 这 个 类 中 ，validate 是 抽象 方法 。 
@ Quantity 和 NonBlank 都 继承 自 Validated 类 。 


O 要 求 具体 的 validate 方法 返回 验证 后 的 值 ， 借 机 可 以 清理 、 转 换 或 规范 化 接收 的 数 
据 。 这 里 ， 我 们 把 value 首尾 的 空白 去 掉 ， 然 后 将 其 返回 


model v5.py 脚本 的 用 户 不 需要 知道 全 部 细节 。 用 户 只 需 知道 ， 他 们 可 以 使 用 Quantity 
和 NonBlank 自动 验证 实例 属性 。 参 见 示例 20-7 中 的 最 新 版 LineItem 类 。 





















































示例 20-7 bulkfood v5.py: 使 用 Quantity 和 NonBlank 描述 符 的 LineItem 类 














import model v5 as model © 


class LineItem: 
description = model.NonBlank() @ 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 








Q 导入 model_v5 模块 ， 指 定 一 个 更 友好 的 名 称 。 
@ 使 用 model .NonBlank 描述 符 。 其 余 的 代码 没 变 。 


本 章 所 举 的 几 个 LineItem 示例 演示 了 描述 符 的 典型 用 途 一 一 管理 数据 属性 。 这 种 描述 符 
也 叫 覆 盖 型 描述 符 ， 因 为 描述 符 的 __set_ ”方法 使 用 托管 实例 中 的 同名 属性 覆盖 〈 即 插 
Bain 了 要 设置 的 属性 。 不 过 ， 也 有 非 履 盖 型 描述 符 。 下 一 节 会 详 述 这 两 种 描述 符 之 间 
和 区别 



























































































































































20.2 4% mE SAE Fe ae AY Flack FF MT kE 


如 前 所 述 ，Python 存 取 属 性 的 方式 特别 不 对 等 。 通 过 实例 读 取 属性 时 ， 通 常 返回 的 是 实例 
中 定义 的 属性 ; 但是， 如 果实 例 中 没有 指定 的 属性 ; 那么 会 获取 类 属性 。 而 为 实例 中 的 属 
性 赋值 时 ， 通 常会 在 实例 中 创建 属性 ， 根 本 不 影响 类 。 


这 种 不 对 等 的 处 理 方式 对 描述 符 也 有 影响 。 其 实 ， 根 据 是 否定 义 __set__ 方法 ， 描 述 符 
可 分 为 两 大 类 。 若 想 观 察 这 两 类 描述 符 的 行为 差异 ， 则 需要 使 用 所 个 类 我 们 将 使 用 示例 
20-8 中 的 代码 作为 接 下 来 儿 节 的 试验 台 。 




























































































` 在 示例 20-8 中 , 每 个 get 和 set 方法 都 调用 了 print_args 函数 ， 
使 调用 方式 易于 阅读 。 没 必要 深入 理解 print_args 函数 及 辅助 函数 cls_name 和 
display， 因 此 不 要 花心 思 研 究 它 们 。 























示例 20-8 descriptorkinds.py: 几 个 简单 的 类 ， 用 于 研究 描述 符 的 履 六 行为 
































Ht 辅助 函数 ， 仅 用 于 显示 HEE 











def cls_name(obj_or_cls): 
cls = type(obj_or_cls) 
if cls is type: 
cls = obj_or_cls 
return cls. name .split('.')[-1] 


def display(obj): 
cls = type(obj) 
if cls is type: 
return ‘<class {}>'.format(obj._name_ ) 
elif cls in [type(None), int]: 
return repr(obj) 
else: 
return '<{} object>'.format(cls_name(obj)) 


def print_args(name, *args): 
pseudo_args = ', ‘.join(display(x) for x in args) 
print('-> {}.__{}__({})'.format(cls_name(args[@]), name, pseudo_args)) 





HHH 对 这 个 示例 重要 的 类 eH 


class Overriding: © 


"也 称 数据 描述 符 或 强制 描述 符 """ 
































def get (self, instance, owner): 
print_args('get', self, instance, owner) @ 


def _set_ (self, instance, value): 
print_args('set', self, instance, value) 





class OverridingNoGet: © 
""" 没 有 `` get 方法 的 覆盖 型 描述 符 """ 


























def _set (self, instance, value): 
print_args('set', self, instance, value) 


class NonOverriding: @ 
""" 也 称 非 数 据 描 述 符 或 遮盖 型 描述 符 """ 






































def get (self, instance, owner): 
print_args('get', self, instance, owner) 


class Managed: © 
over = Overriding() 
over_no_get = OverridingNoGet() 
non_over = NonOverriding() 


def spam(self): © 
print('-> Managed.spam({})'.format(display(self))) 





























QA _ get 和 set 方法 的 典型 覆盖 型 描述 符 。 

四 在 这 个 示例 中 ， 各 个 描述 符 的 每 个 方法 都 调用 了 print_args 函数 。 
全 没有 _ get ”方法 的 覆盖 型 描述 符 。 

OZA set 方法， 所 以 这 是 非 覆 盖 型 描述 符 。 

@ 托管 类 ， 使 用 各 个 描述 符 类 的 一 个 实例 。 

@ spam 方法 放 在 这 里 是 为 了 对 比 ， 因 为 方法 也 是 描述 符 。 


在 接 下 来 的 几 节 中 ， 我 们 要 分 析 对 Managed 类 及 其 实例 做 属性 读 写 时 的 行为 ， 还 会 讨论 
所 定义 的 各 个 描述 符 。 














































































































20.2.1 履 盖 型 描述 符 


实现 set ”方法 的 描述 符 属 于 履 盖 型 描述 符 ， 因 为 虽然 描述 符 是 类 属性 ， 但 是 实现 
_ set_ _ 方法 的 话 ， 会 覆盖 对 实例 属性 的 赋值 操作 。 示 例 20-2 就 是 这 样 实现 的 。 特 性 也 
FoF in IA FF: 如 果 没 提供 设 值 函数 ，property 类 中 的 set_ 方法 会 抛 出 
AttributeError 异常 ， 指 明 那 个 属性 是 只 读 的 。 我 们 可 以 使 用 示例 20-8 中 的 代码 测试 
履 盖 型 描述 符 的 行为 ， 如 示例 20-9 所 示 。 


示例 20-9 覆盖 型 描述 符 的 行为 ， 其 中 obj.over 是 Overriding % (Masti 20- 
8) 的 实例 


>>> obj = Managed() @ 



































































































































>>> obj.over @ 

-> Overriding. get (<Overriding object>, <Managed object>, 
<class Managed>) 

>>> Managed.over © 

-> Overriding. get (<Overriding object>, None, <class Managed>) 

>>> obj.over = 7 @ 

-> Overriding. set (<Overriding object>, <Managed object>, 7) 

>>> obj.over @ 

-> Overriding. get (<Overriding object>, <Managed object>, 
<class Managed>) 

>>> obj.__dict__['over'] = 8 © 

>>> vars(obj) @ 

{'over': 8} 

>>> obj.over © 

-> Overriding. get (<Overriding object>, <Managed object>, 
<class Managed>) 

















O 创建 供 测试 使 用 的 Managed 对 和 象 。 
© obj .over 触发 描述 符 的 __get__ 方法 ， 第 二 个 参数 的 值 是 托管 实例 obj. 


© Managed.over 触发 描述 符 的 ”get ”方法 ， 第 二 个 参数 (instance) 的 值 是 
None。 


@ 为 obj.over 赋值 ， 触 发 描述 符 的 __set_ 方法， 最 后 一 个 参数 的 值 是 7。 
© 读 取 obj.over， 仍 会 触发 描述 符 的 _get_ ”方法 。 

O 跳 过 描述 符 ， 直 接 通 过 obj._ dict_ 属性 设 值 。 

O HEE obj. _dict_ RIEF, Æ over 键 名 下 。 


@ 然而 ， 即 使 是 名 为 over 的 实例 属性 ，Managed.over 描述 符 仍 会 覆盖 读 取 obj .over 
这 个 操作 。 
































































































































20.2.2 没有 get 方法 的 履 盖 型 描述 


通常 ， 覆 盖 型 描述 符 既 会 实现 set _ 方法， 也 会 实现 ”get _ 方法 ， 不 过 也 可 以 只 实 
现 set 方法 ， 如 示例 20-1 所 示 。 此 时 ， 只 有 写 操 作 由 描述 符 处 理 。 通 过 实例 读 取 描 
述 符 会 返回 描述 符 对 象 本 身 ， 因 为 没有 处 理 读 操作 的 get__ 方法 。 wi 前 过 实例 
的 __dict__ 属性 创建 同名 实例 属性 ， 以 后 再 设置 那个 属性 时 ， 仍 会 由 __set_ 方法 插 
手 接管 ， 但 是 读 取 那个 属性 的 话 ， 就 会 直接 从 实例 中 返回 新 赋 也 的 什 ， 而 不 会 返回 描述 符 
对 象 。 也 就 是 说 ， 实 例 属性 会 遮盖 描述 符 ， 不 过 只 有 读 操作 是 如 此 。 参 见 示例 20-10. 


示例 20-10 没有 get 方法 的 履 盖 型 描述 符 ， 其 中 obj.over_no_get 是 
OverridingNoGet 类 〈 见 示例 20-8) 的 实例 





































































































































































































>>> obj.over_no get @ 
<__main__.OverridingNoGet object at @x665bcc> 
>>> Managed.over no get @ 
<__main__.OverridingNoGet object at @x665bcc> 





>>> obj.over_no get = 7 © 

-> OverridingNoGet. set (<OverridingNoGet object>, <Managed object>, 7) 
>>> obj.over_no get @ 

<__main__.OverridingNoGet object at @x665bcc> 

>>> obj.__dict__['over_no get']=9 日 

>>> obj.over_no get © 

9 

>>> obj.over_no get = 7 @ 

-> OverridingNoGet. set (<OverridingNoGet object>, <Managed object>, 7) 
>>> obj.over no get © 

9 


























@ 这 个 覆盖 型 描述 符 没 有 get Wve, Wt, obj.over_no_get 从 类 中 获取 描述 符 














实例 。 
O 直接 从 托管 类 中 读 取 描述 符 实例 也 是 如 此 。 
© W obj.over_no_get 赋值 会 触发 描述 符 的 set _ 方法 。 


@ 因为 _ set _ 方法 没有 修改 属性 ， 所 以 在 此 读 取 obj .over_no_get 获取 的 仍 是 托 
类 中 的 描述 符 实例 。 


O 通过 实例 的 _ dict_ ”属性 设置 名 为 over_no_get 的 实例 属性 。 
属性 会 遮盖 描述 符 ， 但 是 只 有 读 操 作 是 如 此 。 
@ 为 obj.over_no_get 赋值 ， 仍 然 经 过 描述 符 的 __set_ 方法 处 理 。 


人 @ 但 是 读 取 时 ， 只 要 有 同名 的 实例 属性 ， 描 述 符 就 会 被 谈 六 。 


20.2.3 JE% m E AAT 
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@ 现在 ，over_no_get 实 













































































im 





没有 实现 _set_ “方法 的 描述 符 是 非 履 盖 型 描述 符 。 如 果 设 置 了 同名 的 实例 属性 ， 描 述 






























































符 会 被 遮 闭 ， 致 使 描述 符 无 法 处 理 那 个 实例 的 那个 属性 。 方 法 是 以 非 履 盖 型 描述 符 实 开 









































的 。 示 例 20-11 展示 了 对 一 个 非 覆 盖 型 描述 符 的 操作 。 


示例 20-11 非 覆 盖 型 描述 符 的 行为 ， 其 中 obj.non_over Æ NonOverriding 类 
( 见 示例 20-8) 的 实例 





























>>> obj = Managed() 

>>> obj.non_over © 

-> NonOverriding. get (<NonOverriding object>, <Managed object>, 
<class Managed>) 

>>> obj.non over = 7 @ 

>>> obj.non_over © 

7 

>>> Managed.non over @ 

-> NonOverriding. get (<NonOverriding object>, None, <class Managed>) 

>>> del obj.non_over 

>>> obj.non over © 

-> NonOverriding. get (<NonOverriding object>, <Managed object>, 
<class Managed>) 














@ obj .non_over 触发 描述 符 的 ”get _ 方法 ， 第 二 个 参数 的 值 是 obj。 
© Managed.non_over 是 非 覆 盖 型 描述 符 ， 因 此 没有 干涉 赋值 操作 的 set _ ”方法 。 


OHE, obj 有 个 名 为 non_over 的 实例 属性 ， 把 Managed 类 的 同名 描述 符 属 性 遮盖 
H, 






































@ Managed.non_over 描述 符 依 然 存在 ， 会 通过 类 截获 这 次 访问 。 
O 如 果 把 non_over 实例 属性 删除 了 ..……… 


@ 那么 ， 读 取 obj.non_over 时 ， 会 触发 类 中 描述 符 的 __get_ 方法 ; 但 要 注意 ， 第 二 
个 参数 的 值 是 托管 实例 。 
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Be Python Dak W/E PT Oe AEE aS IY Ze BEA AS TANT © P ait I FH 
数据 描述 符 或 强制 描述 符 。 非 覆盖 型 描述 符 也 叫 非 数据 描述 符 或 遮盖 型 描述 符 。 


在 上 述 几 个 示例 中 ， 我 们 为 几 个 与 描述 符 同名 的 实例 属性 由 了 值 ， 结 果 依 描述 名 
_ set_ “方法 而 有 所 不 同 。 


依附 在 类 上 的 描述 符 无 法 控制 为 类 属性 赋值 的 操作 。 其 实 ， 这 意味 着 为 类 属性 赋值 能 覆 善 
描述 符 属 性 ， 正 如 下 一 节 所 述 的 。 


20.2.4 ”在 类 中 禾 盖 描述 符 

不 管 描述 符 是 不 是 覆盖 型 ， 为 类 属性 赋值 都 能 覆盖 描述 符 。 这 是 一 种 猴子 补丁 技术 ， 不 过 

在 示例 20-12 中 ， 我 们 把 描述 符 普 痪 成 了 束 数 ， 这 其 实 会 导致 依 才 描述 符 的 类 不 能 正确 地 
行 操作 。 


示例 20-12 ”通过 类 可 以 覆盖 任何 描述 符 
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>>> obj = Managed() @ 

>>> Managed.over = 1 @ 

>>> Managed.over_no_get = 2 

>>> Managed.non_over = 3 

>>> obj.over, obj.over_no get, obj.non_over © 
(1, 2, 3) 


@ 为 后 面 的 测试 新 建 一 个 实例 。 

O 覆盖 类 中 的 描述 符 属 性 。 

O 描述 符 真 的 不 见 了 。 

示例 20-12 揭示 了 读 写 属性 的 另 一 种 不 对 等 : 读 类 属性 的 操作 可 以 由 依附 在 托管 类 上 定义 


有 get 方法 的 描述 符 处 理 ， 但 是 写 类 属性 的 操作 不 会 由 依附 在 托管 类 上 定义 有 
set “方法 的 描述 符 处 理 。 




















































































































~ 若 想 控制 设置 类 属性 的 操作 ， 要 把 描述 符 依附 在 类 的 类 上 ， 即 依附 在 元 类 上 。 
默认 情况 下 ， 对 用 户 定义 的 类 来 说 ， 其 元 类 是 type， 而 我 们 不 能 为 type 添加 属 
性 。 不 过 在 第 21 章 ， 我 们 会 自己 创建 元 类 。 


下 面 我 们 调转 话题 ， 分 析 Python 是 如 何 使 用 描述 符 实现 方法 的 。 

















20.3 ”方法 是 描述 符 

在 类 中 定义 的 函数 属于 绑 定 方法 bound method) ， 因 为 用 户 定义 的 函数 都 有 _ get 方 
法 ， 所 以 依附 到 类 上 时 ， 就 相当 于 描述 符 。 示 例 20-13 演示 了 从 示例 20-8 里 定义 的 
Managed 类 中 读 取 spam 方法 。 


示例 20-13 ”方法 是 非 覆 盖 型 描述 符 




































































>>> obj = Managed() 

>>> obj.spam © 

<bound method Managed.spam of <descriptorkinds.Managed object at @x74c8@c>> 
>>> Managed.spam @ 

<function Managed.spam at @x734734> 

>>> obj.spam= 7 © 

>>> obj.spam 

7 











@ obj . spam 获取 的 是 绑 定 方法 对 象 。 
© 但 是 Managed. spam 获取 的 是 函数 。 
© 如 果 为 obj.spam 赋值 ， 会 遮盖 类 属性 ， 导 致 无 法 通过 obj 实例 访问 spam 方法 。 


函数 没有 实现 set_” 方法 ， 因 此 是 非 履 六 型 描述 符 ， 如 示例 20-13 中 的 最 后 一 行 所 
ZR 


从 示例 20-13 中 还 可 以 看 出 一 个 重要 信息 : obj. spam Fl Managed. spam 获取 的 是 不 同 的 
对 象 。 与 描述 符 一 样 ， 通 过 托管 类 访问 时 ， 函 数 的 __get_ ”方法 会 返回 自身 的 引用 。 但 
是 ， 通 过 实例 访问 时 ， 函 数 的 get_ ”方法 返回 的 是 绑 定 方法 对 象 : 一 种 可 调用 的 对 
象 ， 里 面包 装着 函数 ， 并 把 托管 实例 〈 例 如 obj) 绑 定 给 函数 的 第 一 个 参数 CBN 

self) ， 这 与 functools .partial 函数 的 行为 一 致 〈 参 见 5.10.2 节 ) 。 


为 了 深入 理解 这 种 机 制 ， 请 看 示例 20-14。 




















































































































示例 20-14 method_is descriptor.py: Text 类 ， 继 承 自 UserString 类 


import collections 


class Text(collections.UserString): 


def _repr_ (self): 
return 'Text({!r})'.format(self.data) 


def reverse(self): 
return self[::-1] 











下 面 来 分 析 Text. reverse 方法 ， 如 示例 20-15 所 示 。 





示例 20-15 ”测试 一 个 方法 


>>> word = Text('forward ) 

>>> word @ 

Text ('forward' ) 

>>> word.reverse() @ 

Text ('drawrof' ) 

>>> Text. reverse(Text('backward')) © 

Text( drawkcab ) 

>>> type(Text.reverse), type(word.reverse) @ 
(<class 'function'>, <class 'method'>) 

>>> list(map(Text.reverse, ['repaid', (10, 20, 30), Text('stressed')])) © 
['diaper', (30, 20, 10), Text('desserts')] 

>>> Text.reverse. get (word) © 

<bound method Text.reverse of Text('forward' )> 
>>> Text.reverse. get (None, Text) @ 
<function Text.reverse at 0x101244e18> 

>>> word.reverse © 

<bound method Text.reverse of Text('forward' )> 
>>> word.reverse. self © 

Text ('forward' ) 

>>> word.reverse. func is Text.reverse 四 
True 




















@ Text 实例 的 repr 方法 返回 一 个 类 似 Text 构造 方法 调用 的 字符 串 ， 可 用 于 创建 相同 


的 实例 。 
四 reverse 方法 返回 反 向 拼写 的 单词 。 
O 在 类 上 调用 方法 相当 于 调用 函数 。 


@ 注意 类 型 是 不 同 的 ， 一 个 是 function， 一 个 是 method. 




















O Text.reverse 相当 于 函数 ， 甚 至 可 以 处 理 Text 实例 之 外 的 其 他 对 象 。 












































O 函数 都 是 非 履 盖 型 描述 符 。 在 函数 上 调用 __get_ ”方法 时 传 入 实例 ， 得 到 的 是 绑 定 到 
那个 实例 上 的 方法 。 

@ 调用 函数 的 get ”方法 时 ， 如 果 instance 参数 的 值 是 None， 那 么 得 到 的 是 函数 本 
O word.reverse 表达 式 其 实 会 调用 Text.reverse. get (word)， 返 回 对 应 的 绑 定 





绑 定 方法 对 象 有 个 _self 属性， 其 值 是 调用 这 个 方法 的 实例 引用 。 
© 绑 定 方法 的 _func_ _ 属性 是 依附 在 托管 类 上 那个 原始 函数 的 引用 。 
绑 定 方法 对 象 还 有 个 call _ 方法 ， 用 于 处 理 真 正 的 调用 过 程 。 这 个 方法 
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_ func _ 属性 引用 的 原始 函数 ， 把 函数 的 第 一 个 参数 设 为 绑 定 方法 的 _ 














这 就 是 形 参 self 的 隐 式 绑 定 方式 。 
函数 会 变 成 绑 定 方法 ， 这 是 Python 语言 底层 使 用 描述 符 的 最 好 例证 。 
深入 了 解 描述 符 和 方法 的 运作 方式 之 后 ， 下 面 讨 论 用 法 方面 的 一 些 实用 建议 。 






























































下 面 根据 刚刚 论述 的 描述 符 特征 给 出 一 些 实用 的 结论 。 
使 用 特性 以 保持 简单 


内 置 的 property 类 创建 的 其 实 是 覆盖 型 描述 符 ， set__ 方法 和 ”get __ 方法 都 
实现 了 ， 即 便 不 定义 设 值 方法 也 是 如 此 。 特 性 的 set ”方法 默认 抛 出 
AttributeError: can't set attribute， 因此 创建 只 读 属 性 最 简单 的 方式 是 使 用 特 
性 ， 这 能 避免 下 一 条 所 述 的 问题 。 
























































只 读 描述 符 必须 有 __set_ 方法 






































如 果 使 用 描述 符 类 实现 只 读 属 性 ， 要 记 住 ， get 和 _set _ 两 个 方法 必须 都 定 
X, A, SGI Pee IAT. RIVER set 方法 只 需 抛 出 
AttributeError 异常 ， 并 提供 合适 的 错误 消息 。6 































































































SPython 为 此 类 异常 提供 的 错误 消息 不 一 致 。 如 果 试 图 修改 complex 的 c.real 属性 ， 那 么 得 到 的 错误 消息 是 
AttributeError: read-only attribute; 但 是 ， 如 果 试 图 修改 c.conjugat (e complex 对 象 的 方法 ) ， 那 么 得 到 
的 错误 消息 是 AttributeError: 'complex' object attribute 'conjugate' is read-only. 
































用 于 验证 的 描述 符 可 以 只 有 set 方法 


对 仅 用 于 验证 的 描述 符 来 说 ，_ set_ ”方法 应 该 检查 value 参数 获得 的 值 ， 如 果 有 
效 ， 使 用 描述 符 实例 的 名 称 为 键 ， 直 接 在 实例 的 __dict__ 属性 中 设置 。 这 样 ， 从 实例 中 
读 取 同名 属性 的 速度 很 快 ， 因 为 不 用 经 过 __get__ 方法 处 理 。 参 见 示 例 20-1 中 的 代码 。 


A get 方法 的 描述 符 可 以 实现 高 效 缓存 


如 果 只 编写 了 __get 方法， 那么 创建 的 是 非 覆 盖 型 描述 符 。 这 种 描述 符 可 用 于 执 
行 某 些 耗费 资源 的 计算 ， 然 后 为 实例 设置 同名 属性 ， 缓 存 结果 。 同 名 实例 属性 会 遮盖 描述 
符 ， 因 此 后 续 访 问 会 直接 从 实例 的 _、 dict_ _ 属性 中 获取 值 ， 而 不 会 再 触发 描述 符 的 
get Fik. 


非特 殊 的 方法 可 以 被 实例 属 | 


由 于 函数 和 方法 只 实现 了 get 方法 ， 它 们 不 会 处 理 同名 实例 属性 的 赋值 操作 。 
因此 ， 像 my_obj.the_method = 7 这 样 简 单 赋 值 之 后 ， 后 续 通 过 该 实例 访问 
the_method 得 到 的 是 数字 7 一 一 但 是 不 影响 类 或 其 他 实例 。 然 而 ， 特 殊 方法 不 受 这 个 问 
题 的 有 影响。 解释 器 只 会 在 类 中 寻找 特殊 的 方法 ， 也 就 是 说 ，repr(x) 执行 的 其 实 是 

x. class . repr (x)， 因此 x 的 _repr 属性 对 repr(x) 方法 调用 没有 影响 。 
出 于 同样 的 原因 ， 实 例 的 __getattr _ 属性 不 会 破坏 常规 的 属性 访问 规则 。 


实例 的 非特 殊 方法 可 以 被 轻松 地 歼 盖 ， 这 听 起 来 不 可 靠 且 容易 出 错 ， 可 是 在 我 使 用 Python 
的 15 年 中 从 未 受 此 困扰 。 然 而 ， 如 果 要 创建 大 量 动态 属性 ， 属 性 名 称 从 不 受 自 己 控制 的 
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数据 中 获取 《〈 像 本 章 前 面 那 样 ) ， 那 么 你 应 该 知道 这 种 行为 ;或 许 你 还 可 以 实现 某 种 机 
制 ， 过 滤 或 转 义 动态 属性 的 名 称 ， 以 维持 数据 的 健全 性 。 














` 示例 19-6 中 的 FrozenJSON 类 不 会 出 现实 例 属 性 遮盖 方法 的 问题 ， 因 为 那个 

类 只 有 几 个 特殊 方法 和 一 个 build 类 方法 。 只 要 通过 类 访问 ， 类 方法 就 是 安全 的 ， 

在 示例 19-6 中 我 就 是 这 么 调用 FrozenJSON. build 方法 的 一 一 在 示例 19-7 中 蔡 换 成 
_ new _ 方法 了 。Record 类 ( 见 示例 19-9 和 示例 19-11) 及 其 子 类 也 是 安全 的 ， 因 

为 只 用 到 了 特殊 的 方法 、 类 方法 、 静 态 方法 和 特性 。 特 性 是 数据 描述 符 ， 因 此 不 能 被 
实例 属性 履 盖 。 


讨论 特性 时 讲 了 两 个 功能 ， 这 里 讨论 的 描述 符 还 未 涉及 ， 结 束 本 章 之 前 我 们 来 讲 讲 : 文档 
和 对 删除 托管 属性 的 处 理 。 




































































20.5 FIAT AY SCRE E Ae ain BR ERE 


HERE HSCS ATE H TERE 的 各 个 描述 符 实 例 。 图 20-6 中 的 截图 是 
LineItem 类 ( 见 示例 20-7) 及 Quantity 和 NonBlank 描述 符 ( 见 示例 20-6) 的 帮助 界 
面 。 


提供 的 信息 有 点 不 是 。 对 LineItem 类 来 说 ， 如 条 能 说 明 weight 25 页 以 千克 为 单位 就 好 
了 。 这 对 特性 来 说 是 小 菜 一 碟 ， 因 为 各 个 特性 上 a 党 属性 。 可 是 对 描述 符 来 
ti, weight 和 price 使 用 的 都 是 Quantity 描述 符 1 












































































































































?定制 各 个 描述 符 实例 的 帮助 文本 特别 难 。 有 一 种 方法 是 为 各 个 描述 符 实例 动态 构建 包装 类 。 












































讨论 特性 时 还 讲 了 一 个 细节 ， 而 这 里 讨论 的 描述 符 没 有 涉及 ， 那 就 是 对 删除 托管 属性 的 处 
理 。 在 描述 符 类 中 ， 实 现 常 规 的 __get__ 和 (或) __set_ 方法 之 外 ， 可 以 实现 

_ delete 方法， 或 者 只 实现 delete _ 方法 做 到 这 一 点 。 时 间 充 足 的 读者 可 以 编写 
一 个 没有 实际 作用 的 描述 符 类 实现 _delete__ 方 法， 就 当 作 练习 。 
















































































lontra:descriptors luciano$ python3 -i bulkfood_vS.py 
>>> help(LineItem.weight)]} 


DD ceo ESS cep 


Help on Quantity in module model_vS object: 


class Quantity(Validated) 
| a number greater than zero 


Method resol 
Quantity 
Validate 
abc. ABC s 
hutost >> heLpCLineItem) 目 


| 
lontra:descriptors luciano$ python3 -i bulkfood_v5.py 

| 

| 

| 

| builtins SS A 
| 

| 

| 

| 

| 


>>> help(LineItem.weight) 


Help on class LineItem in module __main__: 
Methods defit 
class LineItem(builtins.object) 
validate(selj | Methods defined here: 


init__(self, description, weight, price) 





1 
1 

Data and oth l 
| subtotal(self) 
1 


| 

| 
= | _abstractme| 

| 


| Methods inhe 


I 
wy 


Data descriptors defined here: 





es 
dictionary for instance variables (if defined) 


__weakref__ 
list of weak references to the object Cif defined) 








description 
a string with at least one non-space character 


price 
a number greater than zero 








20-6: 在 Python 控制 台中 执行 help(LineItem.weight) 和 help(LineItem) 命令 
时 的 截图 


20.6 ”本 章 小 结 


本 章 的 第 一 个 示例 接续 第 19 章 的 LineItem 系列 示例 。 在 示例 20-1 P, RIER HEE A 
成 了 描述 符 。 我 们 知道 ， 描 述 符 类 的 实例 能 用 作 托 管 类 的 属性 。 为 了 讨论 这 个 机 制 ， 我 们 
引入 了 几 个 特殊 的 术语 ， 例 如 托管 实例 和 储存 属性 。 


在 20.1.2 节 ， 我 们 把 声明 rare 描述 符 所 需 的 storage_name 参数 去 掉 了 ， ig 
多 余 且 容易 出 错 ， 因 为 实例 化 描述 符 时 指定 的 名 称 始终 与 赋值 语句 左边 的 属性 名 一 样 。 
们 采用 的 方法 是 ， 结 合 描述 符 类 的 名 称 和 类 中 的 计数 器 ， 生 成 独一无二 的 
storage_name (例如 '_Quantity#1') 。 


接 下 来 ， 本 章 对 比 了 描述 符 类 与 使 用 函数 式 编程 方式 构建 的 特性 工 三 函数， 分析 了 二 者 的 
代码 量 和 优 缺 点 。 有 时 后 者 更 合适 也 更 简单 ， 但 是 前 者 更 灵活 ， 而 且 是 标准 方案 。20.1.3 
太 利 用 了 描述 符 拓 的 关键 优势 ; 通过 了 于 类 共 吾 代 码 ， 构 建 具有 部 分 相同 功 角 8 的 专用 描述 
符 。 


然后 ， 我 们 分 析 了 有 或 没有 _set_ o RRIT ABITA AA, TETERE 
描述 符 和 非 覆 盖 型 描述 符 之 间 的 重要 差异 。 通 过 详细 的 测试 ， 我 们 揭示 了 描述 符 何 时 接 
管 ， 以 及 何 时 被 遮盖 、 被 跳 过 或 被 覆盖 。 


Se ae BAKA 方法 。 通 过 控制 台中 的 测试 可 知 ， 通 过 
实例 访问 依附 在 类 上 的 函数 时 ， 经 由 描述 符 协议 的 处 理 ， 就 会 变 成 方法 。 


最 后 ， 我 们 对 描述 符 的 用 法 给 出 了 一 些 建 议 ， 还 简要 说 明了 如 何 删 除 描述 符 和 添加 文档 。 
这 一 章 我 们 遇 到 了 几 个 只 有 类 元 编程 能 解决 的 问题 ， 这 些 问 题 留 到 第 21 章 解决 。 





















































































































































































































































































































































20.7 ”延伸 阅读 


除了 语言 参考 手册 中 必 读 的 “Data model” — 

(https://docs.python.org/3/reference/ aiena hl ，Raymond Hettinger 写 的 “Descriptor 
HowTo Guide” (https://docs.python.org/3/howto/descriptor.html) 也 值得 一 读 一 一 这 是 Python 
官方 文档 HowTo 合集 Chttps://docs.python.org/3/howto/) 中 的 一 篇 


对 Python 对 象 模 型 相关 的 话题 来 说 ，Alex Martelli SAY (Python 技术 手册 (第 2 版 ) 》 一 
书 虽 然 有 点 过 时 ， 但 仍然 提供 了 权威 且 客 观 的 论述 : 本 章 讨论 的 关键 机 制 在 Python 2.2 中 
引入 ， 远 在 那 本 书 涵盖 的 2.5 版 之 前 Hl. Martelli 还 做 了 一 次 题 为 "Python's Object Model” H 
演讲 ， 深 入 探讨 了 特性 和 描述 符 [ 约 灯 片 〈http:/www.aleax. J ompdf) , 
视频 Chttps://www.youtube.com/watch?v=VOzvpHoYQoo) ]， 强 烈 推荐 观看 。 



































至 于 针对 Python 3 的 实例 ，David Beazley 与 Brian K. Jones 的 《Python Cookbook (第 3 

版 ) 中 文 版 》 一 书 中 有 很 多 说 明 描 述 符 的 诀 穿 ， 推 荐 阅读 的 有 “6.12 AEA AK) ay 
变 的 二 进 制 结构 ”8.10 让 属 性 具有 惰性 求 值 的 能 力 ”*8.13 实现 一 种 数据 模型 或 类 型 系 
统 ” 和 “9.9 把 装饰 器 定义 成 类 ”。 最 后 一 个 诀窍 解决 了 函数 装饰 器 、 描 述 符 和 方法 之 间 相 互 
作用 的 深层 次 问题 ， 说 明了 如 何 使 用 __call__ 方法 的 类 实现 函数 装饰 器 ， 如 果 既 想 装 
饰 方法 又 想 装饰 函数 ， 还 要 实现 get Wik. 



































杂谈 
self 的 问题 


Arki EH IEF”? (“Worse is Better”) 是 Richard P. Gabriel 在 “The Rise of Worse is Better” — 
X Chttp://dreamsongs.com/RiseOfWorselsBetter. html ) 中 提出 的 设计 思想 。 这 个 思想 的 
第 一 要 义 是 “简单 ”对 此 ，Gabriel 说 道 : 


设计 方式 必须 简单 ， 对 实现 和 接口 来 说 都 应 如 此 。 简 单 的 实现 比 简单 的 接口 更 重 
要 。 简 单 是 设计 过 程 中 最 重要 的 考虑 因素 。 


我 认为 ，Python 要 求 明 确 把 方法 的 第 一 个 参数 声明 为 self 是 “ 变 糟 更 好 ”思想 的 体 
现 。 这 样 ， 实 现 是 简单 了 【甚至 也 优雅 了 ) ， 但 却 牺牲 了 用 户 接口 : 方法 的 签名 一 一 
例如 def zfill(self, width) :一 一 在 外 观 上 与 pobox.zfill(8) 调用 不 匹配 。 


这 种 做 法 (以 及 使 用 self 这 个 标识 符 ) 由 Modula-3 语言 创造 ， 但 是 与 Python 有 差 

Fe: 在 Modula-3 中 ， 接 口 的 声明 与 实现 是 分 开 的 ， 而 且 在 接口 声明 中 会 省 略 self 

接口 声明 中 的 方法 显示 的 参数 数量 与 真正 接受 的 参数 数量 完 
— 7 š 


在 这 方面 ，Python 有 一 项 改进 一 一 错误 消息 。 对 于 用 户 定 义 的 单 参数 〈 除 self 之 
外 ) 方法 来 说 ， 如 果 用 户 调用 obj.meth(), Python 2.7 SWH EH, IR 
TypeError: meth() takes exactly 2 arguments (1 given); 不 过 在 Python 
3.4 中 ， 错 误 消 息 没 那么 难以 理解 了 ， 解 决 了 参数 数量 问题 ， 还 指出 了 缺失 的 参 


数 : meth() missing 1 required positional argument: 'x'. 

























































































除了 要 明确 把 self 作为 参数 之 外 ， 限 制 必须 使 用 self 访问 实例 属性 也 备 受 批评 。% 
我 自己 并 不 介意 输入 self 限定 符 ， 这 样 便 于 把 局 部 变量 和 属性 区 分 开 。 我 介意 的 是 
在 def 语句 中 使 用 self。 但 是 我 已 经 习惯 了 。 


如 果 讨 厌 Python 要 求 显 式 使 用 self， 可 以 想 想 JavaScript 中 隐 式 的 this 那 变 约莫 测 
的 语义 ， 这 样 感觉 就 会 好 多 了 。 像 这 样 使 用 self 有 一 些 合理 之 处 ，Guido 在 他 的 博 
客 The History of Python 中 写 了 一 篇 文章 ， 题 为 “Adding Support for User-defined 
Classes” Chttp://python-history.blogspot.com.br/2009/02/adding-support-for-user-defined- 
classes.html) ， 说 明了 这 些 原 因 。 





















































8 例如 ，A. M. Kuchling 发 表 的 著名 文章 “Python Warts” CF 
当 : ee ee neseeno o Kuchling 自己 并 不 讨厌 self 限定 
符 ， 但 是 他 提 到 了 这 一 点 能 是 
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第 21 章 类 元 编程 








(元 类 ) 是 深奥 的 知识 ，99% 的 用 户 都 无 需 关注 。 如 有 果 你 想 知 道 是 否 需 要 使 用 元 
类 ， 我 告诉 你 ， 不 需要 真正 需要 使 用 元 类 的 人 确信 他 们 需要 ， 无 需 解 释 原 因 )〉。! 



































Tim Peters 


Timsort 算法 的 发 明 者 ， 活 跃 的 Python 贡献 者 
































| 1 摘自 comp.lang.python 邮件 列表 中 对 “Acrimony in c.Lp.” 话 题 的 回复 (https//mailpython.org/pipermaiypython-list/2002- 
December134521.html) 。 前 言 中 引述 的 那 句 话 也 是 出 自 这 篇 发 布 于 2002 年 12 月 23 日 的 消息 。TimBot 在 那天 获得 了 


























类 元 编程 是 指 在 运行 时 创建 或 定制 类 的 技艺 。 在 Python 中 ， 类 是 一 等 对 象 ， 因 此 任何 时 
候 都 可 以 使 用 函数 新 建 类 ， 而 无 需 使 用 class 关键 字 。 类 装饰 器 也 是 函数 ， 不 过 能 够 审 
查 、 修 改 ， 甚 至 把 被 装饰 的 类 替换 成 其 他 类 。 最 后 ， 元 类 是 类 元 编程 最 高 级 的 工具 : 使 用 
元 类 可 以 创建 具有 某 种 特质 的 全 新 类 种 ， 例 如 我 们 见 过 的 抽象 基 类 。 

元 类 功能 强大 ， 但 是 难以 掌握 。 类 装饰 器 能 使 用 更 简单 的 方式 解决 很 多 问题 。 其 实 ， 
Python 2.6 引入 类 装饰 器 之 后 ， 元 类 很 难 使 用 真实 的 代码 说 明 ， 因 此 我 不 会 像 前 面 的 章节 
那样 再 举 引导 示例 。 


本 章 还 会 谈 及 导入 时 和 运行 时 的 区 别 一 一 这 是 有 效 使 用 Python 元 编程 的 重要 基础 。 


这 是 一 个 令 人 兴奋 的 话题 ， 很 容易 让 人 起 乎 所 以 。 因 此 ， 进 入 本 章 的 正文 之 前 ， 我 必 
须 告诫 你 : 


除非 开发 框架 ， 否 则 不 要 编写 元 类 一 一 然而 ， 为 了 寻找 乐趣 ， 或 者 练习 相关 的 概念 ， 
可 以 这 么 做 。 


首先 ， 本 章 探 讨 如 何在 运行 时 创建 类 。 















































21.1 RL we 


本 书 多 次 提 到 标准 库 中 的 一 个 类 工厂 函数 一 一 collections.namedtuple。 我 们 把 一 个 
类 名 和 几 个 属性 名 传 给 这 个 函数 ， 它 会 创建 一 个 tuple 的 子 类 ， 其 中 的 元 素 通过 名 称 获 
取 ， 还 为 调试 提供 了 友好 的 字符 串 表 示 形 式 (_ repr _)。 


有 时 ， 我 觉得 应 该 有 类 似 的 工厂 函数 ， 用 二 创建 可 学 对 旬 。 假设 我 在 编写 一 个 宠物 店 应 用 
程序 ， 我 想 把 狗 的 数据 当 作 简单 的 记录 人 处理。 编写 下 面 的 样板 代码 让 人 厌烦: 







































































class Dog: 
def _init (self, name, weight, owner): 
self.name = name 


self.weight = weight 
self.owner = owner 





A eke 各 个 字段 名 称 出 现 了 三 次 。 写 了 这 么 多 样板 代码 ， 甚 至 字符 串 表 示 形 式 都 不 友 
f 











>>> rex = Dog('Rex', 30, 'Bob') 
>>> rex 
<__main__.Dog object at @x2865bac> 














参考 collections .namedtuple， 下 面 我 们 创建 一 个 record_factory 函数 ， 即 时 创建 
简单 的 类 〈 如 Dog) 。 这 个 函数 的 用 法 如 示例 21-1。 


示例 21-1 测试 record_ factory 函数 ， 一 个 简单 的 类 工厂 函数 





>>> Dog = record_factory('Dog', 'name weight owner') @ 
>>> rex = Dog('Rex', 30, 'Bob') 

>>> rex @ 

Dog(name='Rex', weight=30, owner='Bob' ) 

>>> name, weight, _ = rex © 

>>> name, weight 

('Rex', 30) 

>>> "{2}'s dog weighs {1}kg".format(*rex) @ 
"Bob's dog weighs 30kg" 

>>> rex.weight = 32 © 

>>> rex 

Dog(name='Rex', weight=32, owner='Bob' ) 

>>> Dog._nmro Q 

(<class 'factories.Dog'>, <class ‘object'>) 























@ 这 个 工厂 函数 的 签名 与 namedtuple RU: 先 写 类 名 ， 后 面 跟着 写 在 一 个 字符 串 里 的 
多 个 属性 名 ， 使 用 空格 或 逗号 分 开 。 


四 友好 的 字符 串 表 示 形 式 。 
O 实例 是 可 友 代 的 对 象 ， 因 此 赋值 时 可 以 便利 地 拆 包 。 














O 传 给 format 等 函数 时 也 可 以 拆 包 。 

O 记录 实例 是 可 变 的 对 象 。 

O 新 建 的 类 继承 自 object， 与 我 们 的 工厂 函数 没有 关系 。 
record_factory 函数 的 代码 在 示例 21-2 中 。? 








?感谢 我 的 朋友 J.S. Bueno 的 建议 。 
示例 21-2 record factorypy: 一 个 简单 的 类 工厂 函数 


def record_factory(cls_name, field_names): 
try: 
field_names = field_names.replace(',', ' ').split() © 
except AttributeError: # 不 能 调用 .replace 或 .split 方 法 
pass # 假定 field_names 本 就 是 标识 符 组 成 的 序列 
field_names = tuple(field names) @ 

















def _init (self, *args, **kwargs): © 
attrs = dict(zip(self. slots , args)) 
attrs.update(kwargs) 
for name, value in attrs.items(): 
setattr(self, name, value) 


def _iter (self): @ 
for name in self. slots : 


yield getattr(self, name) 


def _repr_(self): © 


values = ', '.join('{}={!r}'.format(*i) for i 
in zip(self. slots , self)) 
return '{}({})'.format(self. class . name , values) 


cls attrs = dict( slots = field names, © 


_init = _init_, 
_iter = _iter_, 
_repr = repr ) 


return type(cls name, (object,), cls attrs) @ 





O ix EAL SHB: Sees BAAR) Field_names; 如 果 失 败 ， 那 么 假定 
field_names 本 就 是 可 迭代 的 对 象 ， 一 个 元 素 对 应 一 个 属性 名 。 




















四 使 用 属性 名 构建 元 组 ， 这 将 成 为 新 建 类 的 __slots_ 属性 ， 此外， 这 么 做 还 设 定 了 拆 














包 和 字符 串 表 示 形 式 中 各 字段 的 顺序 。 








O 这 个 函数 将 成 为 新 建 类 的 init Wek. 参数 有 位 置 参数 和 或) 关键 字 











j 
参数 。 


四 实现 _iter 函数 ， 把 类 的 实例 变 成 可 迭代 的 对 象 ， 按照 slots 设 定 的 顺序 产 


出 字段 值 。 











OR _slots_ F self， 生 成 友好 的 字符 串 表 示 形 式 。 

O 组 建 类 属性 字典 。 

@ 调用 type 构造 方法 ， 构 建新 类 ， 然 后 将 其 返回 。 

通常 ， 我 们 把 type 视 作 函数 ， 因 为 我 们 像 函数 那样 使 用 它 ， 例 如 ， 调 用 


type(my_object) 获取 对 象 所属 的 类 一 一 作用 与 my_object. class_ 相同 。 然 
m, type 是 一 个 类 。 当 成 类 使 用 时 ， 传 入 三 个 参数 可 以 新 建 一 个 类 : 





























MyClass = type('MyClass', (MySuperClass, MyMixin), 
{'x': 42, 'x2': lambda self: self.x * 2}) 








type 的 三 个 参数 分 别 是 name, bases 和 dict。 最 后 一 个 参数 是 一 个 映射 ， 指 定 新 类 的 
属性 名 和 值 。 上 述 代码 的 作用 与 下 述 代码 相同 ; 








class MyClass(MySuperClass, MyMixin): 
x = 42 


def x2(self): 
return self.x * 2 








让 人 觉得 新 奇 的 是 ，type 的 实例 是 类 ， 例 如 这 里 的 MyClass 类 或 示例 21-1 中 的 Dog 
2 
To 











总 之 ， 示 例 21-2 中 record_factory 函数 的 最 后 一 行 会 构建 一 个 类 ， 类 的 名 称 是 
cls_name 参数 的 值 ， 唯 一 的 直接 超 类 是 object， 有 
_ slots 、 init 、 iter 和 repr _ 四 个 类 属性 ， 其 中 后 三 个 是 实例 方法 。 


我 们 本 可 以 把 _ slots __ 类 属性 的 名 称 改 成 其 他 值 ， 不 过 要 是 那样 的 话 ， 就 要 实现 

_ setattr_ 方法， 为 属性 赋值 时 验证 属性 的 名 称 ， 因 为 对 于 记录 这 样 的 类 ， 我 们 希望 
属性 始终 是 固定 的 那 几 个 ， 而 且 顺 序 相 同 。 然 而 9.8 节 说 过 ，__slots__ 属性 的 主要 特色 
是 节省 内 存 ， 能 处 理 数 百 万 个 实例 ， 不 过 也 有 一 些 缺 点 。 


把 三 个 参数 传 给 type 是 动态 创建 类 的 常用 方式 。 如 果 查 看 collections.namedtuple 
函数 的 源码 (https://hg.python.org/cpython/file/3.4/Lib/collections/ ”init .py#1236) ， 你 会 发 
现 另 一 种 方式 ， 先 声明 一 个 _class_template 变量 ， 其 值 是 字符 串 形式 的 源码 模板 ， 然 
后 在 namedtuple 函数 中 调用 class template.format(...) 方法 ， 填 充 模板 里 的 空 
AH; 最 后 ， 使 用 内 置 的 exec 函数 计算 得 到 的 源码 字符 串 。 













































































Ç | 

an 在 Python 中 做 元 编程 时 ， 最 好 不 用 exec 和 eval 函数 。 如 果 接 收 的 字符 串 
《或 片段 ) 来 自 不 可 信 的 源 ， 那 么 这 两 个 函数 会 带 来 严重 的 安全 风险 。Python 提供 了 

充足 的 内 省 工具 ， 大 多 数 时 候 都 不 需要 使 用 exec 和 eval 函数 。 然 而 ，Python 核心 

开发 者 实现 namedtuple 函数 时 选择 了 使 用 exec 函数 ， 这 样 做 是 为 了 让 生成 的 类 代 

码 能 通过 . source 属性 














Chttps://docs.python.org/3/library/collections.html#collections.somenamedtuple._ source ) 
获取 。 


record factory 函数 创建 的 类 ， 其 实例 训 列 化 ， 即 不 能 使 用 pickle 
模块 里 的 dump/load 函数 处 理 。 这 个 示例 是 为 了 说 天 如 何 信用 type 类 满足 简单 的 需 

求 ， 因 此 不 会 解决 这 个 问题 。 如 果 想 了 解 完整 的 方案 ， 请 分 析 collections.nameduple 
函数 的 源码 Chttps://hg.python.org/cpython/file/3.4/Lib/collections/__ init .py#1236) ， 搜 
索 “pickling” 这 个 词 。 














21.2 ”定制 描述 符 的 类 装饰 器 


20.1.3 节 中 的 LineItem 示例 还 有 个 问题 没有 解决 :储存 属性 的 名 称 不 具有 描述 性 ， 即 属 
性 (如 weight) 的 值 存储 在 名 为 _Quantity#6 的 实例 局 ! 生 中 ， 这 样 的 名 称 有 点 不 便于 
调试 。 我 们 可 以 使 用 下 述 代码 从 示例 20-7 定义 的 描述 符 中 获取 储存 属性 的 名 称 : 
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>>> LineItem.weight.storage_ name 
"_Quantity#0' 


可 是 ， 如 果 储 存 属性 的 名 称 中 包含 托管 属性 的 名 称 更 好 ， 如 下 所 示 : 


























>>> LineItem.weight.storage_ name 
"_Quantity#weight' 


20.1.2 节 说 过 ， 我 们 不 能 使 用 描述 性 的 储存 属性 名 称 ， 因 为 实例 化 描述 符 时 无 法 得 知 托 
属性 〈 即 绑 定 到 描 述 符 上 的 类 属性 ， 例如 前 述 示例 中 的 weight) 的 名 称 。 可 是 ， 一 旦 旨 
建 好 整个 类 ， 而 且 把 描 ; 述 符 绑 定 到 类 属性 上 之 后 ， 我 们 就 可 以 审查 类 ， pane DARRE A 
理 的 储存 属性 名 称 。LineItem ae new 方法 可 以 做 到 这 一 点 ， 因此 , #6 init _ 
方法 中 使 用 描述 符 时 ， 储存 属性 已 经 设置 了 正确 的 名 称 。 为 了 解决 这 个 问题 而 使 用 

_hnew__ 方法 纯 BARIT: 每 次 新 建 LineItem 实例 时 都 会 运行 __new__ 方法 中 的 逻 
辑 ， 可 是 ， 一 旦 LineItem 类 构建 好 了 ， 描 AE STE I 性 之 间 的 绑 定 就 不 会 变 了 。 因 
此 ， 我 们 要 在 创建 类 时 设置 储存 属性 的 名 称 。 使 用 类 装饰 器 或 元 类 可 以 做 到 这 一 点 。 我 们 
首先 使 用 较 简单 的 方式 。 


类 装饰 器 与 函数 装饰 器 非常 类 似 ， 是 参数 为 类 对 象 的 函数 ， 返 回 原来 的 类 或 修改 后 的 类 。 
在 示例 21-3 中 ， 解 释 器 会 计算 LineItem 类 ， 把 返回 的 类 对 象 传 给 model .entity & 
数 。Python 会 把 LineItem 这 个 全 局 名 称 绑 定 给 model.entity 函数 返回 的 对 象 。 在 这 个 


示例 中 ，model.entity 函数 会 返回 原先 的 LineItem 类 ， 但 是 会 修改 各 个 描述 符 实例 的 
storage_name 属性 。 
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示例 21-3 bulkfood_v6.py: 使 用 Quantity 和 NonBlank 描述 符 的 LineItem 类 

















import model_v6 as model 


@model.entity © 

class LineItem: 
description = model.NonBlank() 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


de 


十 


subtotal(self): 
return self.weight * self.price 





| 
@ 这 个 类 唯一 的 变化 是 添加 了 装饰 器 。 


示例 21-4 是 那个 装饰 器 的 实现 。 这 里 只 列 出 了 model_v6.py 脚本 底部 添加 的 新 代码 ， 其 余 
的 代码 与 model v5.py 脚本 〈 见 示例 20-6) 一 样 。 





HK 





示例 21-4 model v6.py: 一 个 类 装饰 器 





def entity(cls): © 
for key, attr in cls. dict__.items(): @ 
if isinstance(attr, Validated): © 
type_name = type(attr). name _ 
attr.storage name = '_{}#{}'.format(type name, key) @ 
return cls © 








@ 装饰 器 的 参数 是 一 个 类 
@ 迭代 存储 类 属性 的 字典 。 
© 如 果 属 性 是 Validated 描述 符 的 实例 ...….. 


四 使 用 描述 符 类 的 名 称 和 托管 属性 的 名 称 命名 storage_name 〈 例 如 
_NonBlank#description) 。 


© 返回 修改 后 的 类 。 


bulkfood_v6.py 脚本 中 的 doctest 证 明 ， 改 动 是 成 功 的 。 例 如 ， 示 例 21-5 展示 了 一 个 
LineItem 实例 中 的 储存 属性 名 称 。 


示例 21-5 bulkfood_v6.py: 描述 符 中 新 storage_name 属性 的 doctest 
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>>> raisins = LineItem('Golden raisins', 10, 6.95) 

>>> dir(raisins)[:3] 

['_NonBlank#description', '_Quantity#price', '_Quantity#weight'] 
>>> LineItem.description.storage_name 

'_NonBlank#description' 

>>> raisins.description 

'Golden raisins' 

>>> getattr(raisins, '_NonBlank#description') 

'Golden raisins' 














可 以 看 出 ， 这 并 不 复杂 。 类 装饰 器 能 以 较 简单 的 方式 做 到 以 前 需要 使 用 元 类 去 做 的 
一 一 创建 类 时 定制 类 。 


类 装饰 器 有 个 重大 缺点 : 只 对 直接 依附 的 关 有 效 。 这 意味 看， 被 装饰 的 闫 的 子 关 可 能 继承 
能 不 继承 闭 饰 器 所 做 的 改动 ， 有 具体 情况 视 改动 的 方式 而 定 。 接 下 来 的 几 节 会 探讨 这 个 
问题 ， 并 给 出 解决 方案 。 





山中 
par 
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21.3 ”导入 时 和 运行 时 比较 


a. 你 必须 知道 Python 解释 器 什么 时 候 计 算 各 个 代码 块 。Python 程序 

会 区 分 “导入 时 ”和 “运行 时 ”， 不 过 这 两 个 术语 没有 严格 的 定义 ， 而 且 二 者 之 间 存 在 着 灰 
色 地 带 ， 在 导入 时 ， 解释 器 会 从 上 到 下 一 次 性 解析 完 py 模块 的 源码 ， 然后 生成 用 于 执行 
的 字 节 码 。 如 果 句 法 有 错误 ， 就 在 此 时 报告 。 如 果 本 地 的 __pycache _ 文件 夹 中 有 最 新 
的 .pyc 文件 ， 解 释 器 会 跳 过 上 述 步 又 ， 因 为 已 经 有 运行 所 需 的 字 节 码 了 。 


编译 肯定 是 导入 时 的 活动 ， 不 过 那个 时 期 还 会 做 些 其 他 事 ， 因 为 Python 中 的 语句 几乎 都 
是 可 执行 的 ， 也 就 是 说 语句 可 能 会 运行 用 户 代码 ， 修 改 用 户 程序 的 状态 。 尤 其 是 import 
语句 ， 它 不 下 只 是 声明 ， 在 进程 中 首次 导入 模块 时 ， 还 会 运行 所 导入 模块 中 的 全 部 项 层 代 
只 做 名 称 绑 定 。 那 些 顶 层 代码 可 以 做 任何 事 ， 包 
括 通常 在 “运行 时 ”做 的 事 ， 例如 连接 数据 库 。4 因此 , “导入 时 ”与 “运行 时 ”之 间 的 界线 是 
模糊 的 : import 语句 可 以 触发 任何 “运行 时 ”行为 。 



























































tava 中 的 import 语句 则 只 是 声明 ， 用 于 告知 编译 器 需要 特定 的 包 。 









































| 我 不 是 说 导入 模块 时 应 该 连接 数据 库 ， 只 是 指出 来 可 以 做 到 。 


在 前 一 段 中 我 号 道 ， 导 入 时 会 “运行 全 部 顶层 代码 ”， 但 是 “顶层 代码 ”会 经 过 一 些 加 工 。 导 
入 模块 时 ， 解释 器 会 执行 顶层 的 def i 吾 句 ， 可 是 这 么 做 有 什么 作用 呢 ? 解释 器 会 编译 函 
数 的 定义 体 ( 首 次 导入 模块 时 ) ， 把 函数 对 象 绑 定 到 对 应 的 全 局 名 称 上 ， 但 是 显然 解释 器 
不 会 执行 函数 的 定义 体 。 通 常 这 意味 着 解释 器 在 导入 时 定义 顶层 函数 ， 但 是 仅 当 在 运行 时 
调用 函数 时 才 会 执行 函数 的 定义 体 。 


对 类 来 说 ， 情 况 就 不 同 了 : 在 导入 时 ， 解 释 器 会 执行 每 个 类 的 定义 体 ， 甚 至 会 执行 嵌 套 类 
4 定义 体 。 执 行 类 定义 体 的 结果 是 ， 定 义 了 类 的 属性 和 方法 ， 并 构建 了 类 对 象 。 从 这 个 意 
义 上 理解 ， 类 的 定义 体 属 于 “顶层 代码 ”， 因 为 它 在 导入 时 运行 。 


上 述说 明 模糊 又 抽象 ， 下 面 通 过 练习 理解 各 个 时 期 所 做 的 事情 。 
理解 计算 时 间 的 练习 
假设 在 evaltime.py 脚本 中 导入 了 evalsupport.py 模块 。 这 两 个 模块 调用 了 几 次 print K 


上 
可 时 执行 。 

















































































































` 据 我 的 学 生 说 ， _ 这 两 个 练习 有 助 于 更 好 地 理解 Python 计算 源码 的 方式 。 在 查看 
场景 1 的 解答 之 前 ， 请 一 定 要 拿 出 纸 和 笔 ， 花 点 时 间作 答 。 


那 两 个 模块 的 代码 在 示例 21-6 和 示例 21-7 中 。 先 别 运行 代码 ， 拿 出 纸 和 笔 ， 按 顺序 写 出 
下 述 两 个 场景 输出 的 标记 。 











场景 1 


在 Python 控制 台中 以 交互 的 方式 导入 evaltime.py 模块 : 











[>> import evaltime 





场景 2 





在 命令 行 中 运行 evaltime.py 模块 : 








[$ python3 evaltime.py 





示例 21-6 evaltime.py: 按 顺 序 写 出 输出 的 序号 标记 <[N]> 





from evalsupport import deco_alpha 


print('<[1]> evaltime module start') 


class ClassOne(): 
print('<[2]> ClassOne body') 


def _ init__(self): 
print('<[3]> ClassOne. init ') 


def del (self): 
print('<[4]> ClassOne. del ') 


def method x(self): 
print('<[5]> ClassOne.method x') 


class ClassTwo(object): 
print('<[6]> ClassTwo body') 


@deco_alpha 
class ClassThree(): 
print('<[7]> ClassThree body') 


def method_y(self): 
print('<[8]> ClassThree.method_y' ) 


class ClassFour(ClassThree): 
print('<[9]> ClassFour body ) 


def method_y(self): 
print('<[10]> ClassFour.method_y' ) 


if _name == ' main_': 
print('<[11]> ClassOne tests', 30 * '.') 
one = ClassOne() 
one.method_x() 
print('<[12]> ClassThree tests', 30 * '.') 
three = ClassThree() 





three.method_y() 

print('<[13]> ClassFour tests', 30 * '.') 
four = ClassFour() 

four.method_y() 


print('<[14]> evaltime module end') 








示例 21-7 evalsupport.py: evaltime.py 导入 的 模块 


print('<[10@]> evalsupport module start') 


def deco_alpha(cls): 
print('<[20@]> deco_alpha' ) 


def inner_1(self): 
print('<[300]> deco_alpha:inner_1') 


cls.method_y = inner_1 
return cls 


class MetaAleph(type): 
print('<[400]> MetaAleph body ) 


def _init (cls, name, bases, dic): 
print('<[500]> MetaAleph. init ') 


def inner 2(self): 
print('<[600]> MetaAleph. init :inner 2') 


cls.method z = inner 2 


print('<[700]> evalsupport module end') 





01. 场景 1 的 解答 
在 Python 控制 台中 导入 evaltime.py 模块 后 得 到 的 输出 如 示例 21-8 所 示 。 


示例 21-8 场景 1: 在 Python 控制 台中 导入 evaltime 模块 














>>> import evaltime 

<[166]> evalsupport module start @ 
<[466]> MetaAleph body @ 
<[700]> evalsupport module end 
<[1]> evaltime module start 
<[2]> ClassOne body © 

<[6]> ClassTwo body @ 

<[7]> ClassThree body 

<[200]> deco_alpha © 

<[9]> ClassFour body 

<[14]> evaltime module end © 








Q evalsupport 模块 中 的 所 有 顶层 代码 在 导入 模块 时 运行 ， 解 释 器 会 编译 

















deco_alpha 函数 ， 但 是 不 会 执行 定义 体 。 

© MetaAleph 类 的 定义 体 运行 了 。 

O 每 个 类 的 定义 体 都 执行 了 .…… 

@@ .….. 包 括 肉 套 的 类 。 

O 先 计算 被 装饰 的 类 ClassThree 的 定义 体 ， 然 后 运行 装饰 器 函数 。 


O 在 这 个 场景 中 ，evaltime 模块 是 导入 的 ， 因 此 不 会 运行 if _ name_ == 
' main “: 块 。 

















对 于 场景 1， 要 注意 以 下 几 点 。 
( 这 个 场景 由 简单 的 import evaltime 语句 触发 。 
(2) 解释 器 会 执行 所 导入 模块 及 其 依赖 (evalsupport) 中 的 每 个 类 定义 体 。 






































(3) 解释 器 先 计算 类 的 定义 体 ， 然 后 调用 依附 在 类 上 的 装饰 器 函数 ， 这 古 合理 的 行 


























为 ， 因 为 必须 先 构建 类 对 象 ， 装 饰 器 才 有 类 对 象 可 处 理 。 

















(4) 在 这 个 场景 中 ， 只 运行 了 一 个 用 户 定义 的 函数 或 方法 一 一 deco_alpha 装饰 器 。 





下 面 来 看 场景 2。 
. 场景 2 的 解答 


运行 python3 evaltime.py 命令 后 得 到 的 输出 如 示例 21-9 所 示 。 





示例 21-9 场景 2: 在 shell 中 运行 evaltime.py 


$ python3 evaltime.py 

<[100]> evalsupport module start 

<[400]> MetaAleph body 

<[700]> evalsupport module end 

<[1]> evaltime module start 

<[2]> ClassOne body 

<[6]> ClassTwo body 

<[7]> ClassThree body 

<[200]> deco_alpha 

<[9]> ClassFour body @ 

< [11] >ClassOne- tests teesi ie Matin ee slate Satie 
<[3]> ClassOne._ init _ @ 

<[5]> ClassOne.method_x 

<[12]> ClassThree “tests: wom asa tae da wares 
<[366]> deco_alpha:inner_1 © 

< [13 JS CLlaSSFOUr: tests we tne el ee a 
<[10]> ClassFour.method_y 

<[14]> evaltime module end 

<[4]> ClassOne. del @ 








@ 目前 为 上 ， 输 出 与 示例 21-8 相同 。 
四 类 的 标准 行为 。 


@ deco alpha 装饰 器 修改 了 ClassThree.method_y 方法 ， 因 此 调用 
three.method_y() 时 会 运行 inner_1 函数 的 定义 体 。 


woe 绑 定 在 全 局 变量 one 上 的 Classone 实例 才 会 被 垃圾 回收 程序 
回 


场景 2 主要 想 说 明 的 是 ， 类 装饰 器 可 能 对 子 类 没有 影响 。 在 示例 21-6 中 ， 我 们 把 
ClassFour 定义 为 ClassThree 的 子 类 。ClassThree 类 上 依附 的 @deco_alpha 装 
饰 器 把 method_y 方法 替换 反 了 ， 但 是 这 对 ClassFour 类 根本 没有 影响 。 当 然 ， 如 
果 ClassFour.method_y 方法 使 用 super(...) 调用 ClassThree.method_y 方 
法 ， 我 们 便 会 看 到 装饰 器 起 作用 ， 执 行 inner_1 函数 。 


与 此 不 同 的 是 ， 如 末 想 定制 整个 类 层次 结构 ， 而 不 是 一 次 只 定制 一 个 类 ， 使 用 下 一 
介绍 的 元 类 更 高 效 。 
















































































21.4 元 类 基础 知识 


元 类 是 制造 类 的 工厂 ， 不 过 不 是 函数 《如 示例 21-2 中 的 record_factory) ， 而 是 类 。 
图 21-1 使 用 机 器 和 小 怪兽 图 示 法 描述 元 类 ， 可 以 看 出 ， 元 类 是 生产 机 器 的 机 器 。 


Nae 
© Gizmos 
Notation 








21-1: 元 类 是 用 于 构建 类 的 类 


根据 Python 对 象 模型 ， 类 是 对 象 ， 因 此 类 肯定 是 另外 某 个 类 的 实例 。 默 认 情 况 下 ，Python 
中 的 类 是 type 类 的 实例 。 也 就 是 说 ，type 是 大 多 数 内 置 的 类 和 用 户 定义 的 类 的 元 类 : 





>>> ‘spam’. class __ 

<class 'str'> 

>>> str.__ class _ 

<class 'type'> 

>>> from bulkfood v6 import LineItem 
>>> LineItem. class _ 

<class 'type'> 

>>> type.__class _ 

<class ‘'type'> 








为 了 避免 无 限 回 湖 ，type 是 其 自身 的 实例 ， 如 最 后 一 行 所 示 。 


注意 ， 我 没有 说 str 或 LineItem 继承 自 type。 我 的 意思 是 ，str 和 LineItem 是 type 
的 实例 。 这 两 个 类 是 object 的 子 类 。 图 21-2 可 能 有 助 于 你 理 清 这 个 奇怪 的 现象 。 








«metaclass» 
type 


«instance of» / k «instance of» 
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图 21-2: 两 个 示意 图 都 是 正确 的 。 左 边 的 示意 图 强调 str. type 和 LineItem 是 
object 的 子 类 。 右 边 的 示意 图 则 清楚 地 表明 str. object 和 LineItem 是 type 的 实 
例 ， 因 为 它们 都 是 类 























` object 类 和 type 类 之 间 的 关系 很 独特 : object Æ type 的 实例 ， 而 type 
是 object 的 子 类 。 这 种 关系 很 “神奇 "， 无 法 使 用 Python 代码 表述 ， 因 为 定义 其 中 一 
个 之 前 另 一 个 必须 存在 。type 是 自身 的 实例 这 一 点 也 很 神奇 。 


除了 type， 标 准 库 中 还 有 一 些 另 IIIR, 例如 ABCMeta 和 Enum. 2 
7X, collections.Iterable 所 属 的 类 是 abc.ABCMeta。Iterable 是 抽象 类 
ABCMeta 不 是 不 管 怎样 ， L A 的 实例 : 





























>>> import collections 

>>> collections.Iterable. class _ 

<class 'abc.ABCMeta'> 

>>> import abc 

>>> abc.ABCMeta.__ class _ 

<class 'type'> 

>>> abc.ABCMeta. mro 

(<class 'abc.ABCMeta'>, <class 'type'>, <class ‘object'>) 





向 上 追溯 ，ABCMeta 最 终 所 属 的 类 也 是 type。 所 有 类 都 直接 或 间接 地 是 type 的 实例 ， 
不 过 只 有 元 类 同时 也 是 type 的 子 类 。 若 想 理 解 元 类 ， 一 定 要 知道 这 种 关系 : 元 类 an 
ABCMeta) 从 type 类 继承 了 构建 类 的 能 力 。 图 21-3 对 这 种 至 关 重 要 的 关系 做 了 图 解 。 
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图 21-3: Iterable object 的 子 类 ， 是 ABCMeta 的 实例 。object 和 ABCMeta 都 是 
type 的 实例 ， 但 是 这 里 的 重要 关系 是 ，ABCMeta 还 是 type 的 子 类 ， 因 为 ABCMeta 是 
元 类 。 示 意图 中 只 有 Iterable 是 抽象 类 


我 们 要 抓 住 的 重点 是 ， 所 有 类 都 是 type 的 实例 ， 但 是 元 类 还 是 type 的 子 类 ， 因 此 可 以 
作为 制造 类 的 工厂 。 具 体 来 说 ， 元 类 可 以 通过 实现 _init_ “方法 定制 实例 。 元 类 的 

_ init_ 方法 可 以 做 到 类 装饰 器 能 做 的 任何 事情 ， 但 是 作用 更 大 ， 如 接 下 来 的 练习 所 
IRo 












































理解 元 类 计算 时 间 的 练习 


我 们 对 21.3 节 的 练习 做 些 改动 ，evalsupportpy 模块 与 示例 21-7 一 样 ， 不 过 现在 主 脚本 变 
成 evaltime meta.py 了 ， 如 示例 21-10 所 示 。 





示例 21-10 evaltime meta.py: ClassFive 是 MetaAleph 元 类 的 实例 





from evalsupport import deco_alpha 
from evalsupport import MetaAleph 


print('<[1]> evaltime_meta module start') 





@deco_alpha 
class ClassThree(): 
print('<[2]> ClassThree body ) 


def method_y(self): 
print('<[3]> ClassThree.method_y' ) 


class ClassFour(ClassThree): 
print('<[4]> ClassFour body') 


def method_y(self): 
print('<[5]> ClassFour.method_y' ) 


class ClassFive(metaclass=MetaAleph) : 
print('<[6]> ClassFive body') 


def _ init__(self): 
print('<[7]> ClassFive._init__') 


def method_z(self): 
print('<[8]> ClassFive.method_z') 


class ClassSix(ClassFive): 
print('<[9]> ClassSix body') 


def method_z(self): 
print('<[10]> ClassSix.method_z') 


if _name == ' main_': 
print('<[11]> ClassThree tests', 30 * '.') 
three = ClassThree() 
three.method_y() 
print('<[12]> ClassFour tests', 30 * '.') 
four = ClassFour() 
four.method_y() 
print('<[13]> ClassFive tests', 30 * '.') 
five = ClassFive() 
five.method_z() 
print('<[14]> ClassSix tests', 30 * '.') 
six = ClassSix() 
six.method_z() 


print('<[15]> evaltime_meta module end') 








al] 
TTT 








， 请 拿 出 纸 和 笔 ， 按 顺序 写 出 下 述 两 个 场景 中 输出 的 序号 标记 <[N]>。 
场景 3 
在 Python 控制 台中 以 交互 的 方式 导入 evaltime_meta.py 模块 。 


场景 4 








在 命令 行 中 运行 evaltime meta.py 模块 。 
解答 和 分 析 如 下 。 
01. 场景 3 的 解答 


在 Python 控制 台中 导入 evaltime_meta.py 模块 后 得 到 的 输出 如 示例 21-11 所 示 。 

















示例 21-11 场景 3: 在 Python 控制 台中 导入 evaltime_meta 模块 





>>> import evaltime_meta 

<[100]> evalsupport module start 
<[400]> MetaAleph body 

<[700]> evalsupport module end 
<[1]> evaltime_meta module start 
<[2]> ClassThree body 

<[200]> deco_alpha 

<[4]> ClassFour body 

<[6]> ClassFive body 

<[566]> MetaAleph. init © 
<[9]> ClassSix body 

<[5@@]> MetaAleph. init _ @ 
<[15]> evaltime_meta module end 














9 与 场景 1 的 关键 区 别 是 ， 创 建 ClassFive 时 调用 了 MetaAleph. init Ù 


Zo 











@ 创建 ClassFive 的 子 类 ClassSix 时 也 调用 了 MetaAleph. init _ 方法 。 
Python 解释 器 计算 ClassFive 类 的 定义 体 时 没有 调用 type 构建 具体 的 类 定义 体 ， 
而 是 调用 MetaAleph 类 。 看 一 下 示例 21-12 中 定义 的 MetaAleph 类 ， 你 会 发 现 
_ init_ ”方法 有 四 个 参数 。 


self 
































这 是 要 初始 化 的 类 对 象 〈 例 如 ClassFive) 。 
name, bases, dic 
与 构建 类 时 传 给 type 的 参数 一 样 。 


示例 21-12 evalsupport.py: 定义 MetaAleph 元 类 ， 摘 自 示 例 21-7 





33) 











class MetaAleph(type): 
print('<[400]> MetaAleph body' ) 


def _init (cls, name, bases, dic): 
print('<[500]> MetaAleph. init _') 


def inner 2(self): 
print('<[600]> MetaAleph. init :inner 2') 





| cls.method_z = inner_2 





` 编写 元 类 时 ， 通 常会 把 self 参数 改 成 cls。 例 如 ， 在 上 述 元 类 的 
_init _ 方法 中 ， 把 第 一 个 参数 命名 为 cls 能 清楚 地 表明 要 构建 的 实例 是 类 。 


init 方法 的 定义 体 中 定义 了 inner_2 函数 ， 然 后 将 其 绑 定 给 

cls.method_z. MetaAleph. init _ 方法 签名 中 的 cls 指 代 要 创建 的 类 (例如 

ClassFive) . iff inner_2 函数 签名 中 的 self 最 终 是 指 代 我 们 在 创建 的 类 的 实例 
(例如 ClassFive 类 的 实例 ) 。 


. 场景 4 的 解答 


在 命令 行 中 运行 python3 evaltime_meta. py 命令 后 得 到 的 输出 如 示例 21-13 所 
ZN o 












































示例 21-13 场景 4: 在 shell 中 运行 evaltime meta.py 


$ python3 evaltime. py 

<[100]> evalsupport module start 

<[400]> MetaAleph body 

<[700]> evalsupport module end 

<[1]> evaltime_meta module start 

<[2]> ClassThree body 

<[200]> deco_alpha 

<[4]> ClassFour body 

<[6]> ClassFive body 

<[500]> MetaAleph. init _ 

<[9]> ClassSix body 

<[500]> MetaAleph. init__ 

<[11]> CLlassThree COSTS: oe aiai anean aduna uia 
<[366]> deco_alpha:inner_1 @ 

<[12]> CLASSFOURM RESTS: RE 
<[5]> ClassFour.method_y @ 

<13 5: CLASSFIVE tests, woe nn am nn ne nm 
<[7]> ClassFive. init _ 

<[600]> MetaAleph. init :inner 2 © 

<[14]> ClassSix tests voor ee eee 
<[7]> ClassFive. init _ 

<[666]> MetaAleph. init :inner 2 @ 

<[15]> evaltime meta module end 








O 装饰 器 依附 到 ClassThree 类 上 之 后 ，method_y 方法 被 蔡 换 成 inner 1 Ù 
法 ...... 


虽然 ClassFour 是 ClassThree 的 子 类 ， 但 是 没有 依附 装饰 器 的 ClassFour 类 
却 不 受 影响 。 











@ MetaAleph 类 的 _ init 方法 把 ClassFive.method_z 方法 替换 成 inner 2 








@ ClassFive 的 子 类 ClassSix 也 是 一 样 ，method_z 方法 被 蔡 换 成 inner_2 % 


o 








JER, ClassSix 类 没有 直接 引用 MetaAleph 类 ， 但 是 却 受 到 了 影响 ， 因 为 它 是 
ClassFive 的 子 类 ， 进 而 也 是 MetaAleph 类 的 实例 ， 所 以 由 MetaAleph. init 
方法 初始 化 。 





A 如 果 想 进一步 定制 类 ， 可 以 在 元 类 中 实现 __new__ 方 法。 不 过 ， 通 常情 
况 下 实现 init ”方法 就 够 了 。 


现在 ， 我 们 可 以 实践 这 些 理论 了 。 我 们 将 创建 一 个 元 类 ， 让 描述 符 以 最 佳 的 方式 自动 
创建 储存 属性 的 名 称 。 
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21.5 定制 描述 符 的 元 类 


回 到 LineItem 系列 示例 。 如 果 用 户 完 全 不 用 知道 描述 符 或 元 类 ， 直 接 继 承 库 提 供 的 类 就 
能 满足 需求 ， 那 该 多 好 。 如 示例 21-14 所 示 。 


示例 21-14 bulkfood_v7.py: 有 元 类 的 支持 ， 继 承 model .Entity 类 即 可 






































import model_v7 as model 


class LineItem(model.Entity): © 
description = model.NonBlank() 
weight = model.Quantity() 
price = model.Quantity() 


def _ init__(self, description, weight, price): 
self.description = description 
self.weight = weight 
self.price = price 


def subtotal(self): 
return self.weight * self.price 





O LineItem Æ model.Entity 的 子 类 。 


示例 21-14 理解 起 来 相当 容易 ， 毕 竟 根 本 没有 奇怪 的 句法 。 可 是 ，model v7.py 模块 必须 
定义 一 个 元 类 ， 而 且 model.Entity 类 是 那个 元 类 的 实例 。model _v7.py 模块 中 实现 的 
Entity 类 如 示例 21-15 所 示 。 



































示例 21-15 model v7.py: EntityMeta 元 类 以 及 它 的 一 个 实例 Entity 





class EntityMeta(type): 
""" 元 类 ， 用 于 创建 带 有 验证 字段 的 业务 实体 """ 


























def _ init (cls, name, bases, attr dict): 
super(). init (name, bases, attr_dict) © 
for key, attr in attr_dict.items(): @ 
if isinstance(attr, Validated): 
type_name = type(attr). name _ 
attr.storage name = '_{}#{}'.format(type_name, key) 


class Entity(metaclass=EntityMeta): © 
mu " 带 有 验证 字段 的 业 Z 实体 " mu 

















@ 在 超 类 (在 这 里 是 type) 上 调用 _init _ 方法 。 
© 与 示例 21-4 中 @entity 装饰 器 的 逻辑 一 样 。 
O 这 个 类 的 存在 只 是 为 了 用 起 来 便利 : 这 个 模块 的 用 户 直 接 继承 Entity 类 即 可 ， 无 需 
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关心 EntityMeta 元 类 ， 甚 至 不 用 知道 它 的 存在 。 


示例 21-14 中 的 代码 能 通过 示例 21-3 中 的 测试 。 辅助 模块 model v7.py 比 model_v6.py 难 
理解 ， 但 是 用 广 级 别 的 代码 更 简单 ; 只 需 继 承 model_v7.Entity 类 ，Validated 字段 就 
能 自动 获得 储存 属性 的 名 称 。 


21-4 使 用 简单 的 图 示 说 明了 我 们 刚刚 实现 的 逻辑 。 虽 然 有 很 多 复杂 的 逻辑 ， 但 都 隐藏 
在 model_v7 模块 中 。 从 用 户 的 角度 来 看 ， 示 例 21-14 中 的 LineItem 只 是 Entity 的 子 
类 。 这 就 是 抽象 的 作用 。 
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图 21-4: 使 用 机 器 和 小 怪兽 图 示 法 (MGN) 注解 的 UML 类 图 。EntityMeta 元 机 器 
用 于 生产 LineItem 机 器 。 描述 符 (如 weight 和 price) 由 EntityMeta. init _ 
方法 配置 。 注 意 model_v7 模块 的 边界 


除了 把 类 链接 到 元 类 上 的 句法 之 外 5， 目 前 编写 元 类 使 用 的 句法 在 Python 2.2 〈 这 个 版 本 
ee 类 型 做 了 重大 改造 ) 之 后 都 能 使 用 。 下 一 节 介 绍 一 个 只 能 在 Python 3 中 使 用 的 
功能 。 


























| 511.7.1 节 说 过 ，Python 2.7 使 用 的 是 _ metaclass 类 属性 ， 类 的 声明 体 不 支持 metaclass= 关键 字 参 数 。 








21.6 ”元 类 的 特殊 方法 prepare_ __ 


可 能 需要 知道 类 的 属性 定义 的 顺序 。 例 如 ， 对 读 写 CSV 文件 的 库 来 说 ， 
用 户 定义 的 类 可 能 想 把 类 中 按 顺 序 声 明 的 字段 与 CSV 文件 中 各 列 的 顺序 对 应 起 来 。 


如 前 所 述 ，type #4 构造 方法 及 元 区 HK) new 和 init 方法 都 会 收 到 要 计算 的 类 的 定 
义 体 ， 形 式 是 名 称 到 属性 的 映像 。 然 而 在 默认 情况 下 ， 那 个 映射 是 字典 ， 也 就 是 说 ， 元 类 
或 类 装饰 器 获得 映射 时 ， 属 性 在 类 定义 体 中 的 顺序 已 经 丢失 了 。 


这 个 问题 的 解决 办 法 是 ， 使 用 Python 3 引入 的 特殊 方法 prepare__。 这 个 特殊 方法 只 
在 元 类 中 有 用 ， 而 且 必 须 声 明 为 类 方法 C, HEH @classmethod 装饰 器 定义 ) 。 解 
释 器 调用 元 类 的 new ”方法 之 前 会 先 调用 prepare _ 方 法， 使 用 类 定义 体 中 的 属性 
创建 映射 。__prepare ”方法 的 第 一 个 参数 是 元 类 ， 随 后 两 个 参数 分 别 是 要 构建 的 类 的 
名 称 和 基 类 组 成 的 元 组 ， 返 回 值 必 须 是 映射 。 元 类 构建 新 类 时 ， ”prepare _ 方法 返回 
的 映射 会 传 给 ”new_ 方法 的 最 后 一 个 参数 ， 然 后 再 传 给 ”init _ 方法 。 


理论 听 起 来 很 复杂 ， 但 是 我 见 过 的 __prepare__ 方法 都 十 分 简单 。 请 看 示例 21-16。 


示例 21-16 model_v8.py: 这 一 版 EntityMeta 元 类 用 到 了 __prepare__ 方 法， 而 
FLA Entity 类 定义 了 field_names 类 方法 






























































































































































class EntityMeta(type): 
""" 元 类 ， 用 于 创建 带 有 验证 字段 的 业务 实体 """ 

















@classmethod 
def _prepare (cls, name, bases): 
return collections.OrderedDict() © 


def _init_ (cls, name, bases, attr_dict): 
super().__init__(name, bases, attr_dict) 
cls. field names = [] @ 
for key, attr in attr_dict.items(): © 
if isinstance(attr, Validated): 
type_name = type(attr). name _ 
attr.storage name = '_{}#{}'.format(type_name, key) 
cls. field_names.append(key) @ 


class Entity(metaclass= EntityMeta): 
"" 带 有 验证 字段 的 业务 实体 "" 











@classmethod 
def field names(cls): © 
for name in cls. field names: 
yield name 








@ 返回 一 个 空 的 OrderedDict 实例 ， 类 属性 将 存储 在 里 面 。 
O 在 要 构建 的 类 中 创建 一 个 _field_names 属性 。 




















O 这 一 行 与 前 一 版 相 比 没有 变化 ， 不 过 这 里 的 attr_dict 是 那个 OrderedDict WHR, 
日 解释 器 在 调用 init _ 方法 之 前 调用 __prepare _ 方法 时 获得 。 因 此 ， 这 个 for 循 
环 会 按照 添加 属性 的 顺序 迭代 属性 。 

O 把 找到 的 各 个 Validated 字段 添加 到 _field_names 属性 中 。 

@ field_names 类 方法 的 作用 简单 ， 按照 添加 字段 的 顺序 产 出 字段 的 名 称 


像 示 例 21-16 那样 添加 一 些 简单 的 代码 之 后 ， 我 们 可 以 使 用 field_names 类 方法 迭代 任 
何 Entity FAH Validated 字段 。 示 例 21-17 演示 了 这 个 新 功能 
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示例 21-17 bulkfood_v8.py: 展示 field_names 用 法 的 doctest 
LineItem 28, field_names 方法 继承 自 model.Entity 类 


无 需 修 改 








>>> for name in LineItem.field_names(): 
print (name) 


description 
weight 
price 




















Ae 类 的 介绍 到 此 结束 。 在 现实 世界 中 ， 框 架 和 库 会 使 用 元 类 协助 程序 员 执 行 很 多 任务 ， 
列 如 


。 验证 属性 
。 一 次 把 装饰 器 依附 到 多 个 方法 上 
。 序列 化 对 象 或 转换 数据 
对 象 关系 映射 
。 基 于 对 象 的 持久 存储 
。 动态 转换 使 用 其 他 语言 编写 的 类 结构 
下 一 节 将 概述 Python 数据 模型 为 所 有 类 定义 的 方法 。 





























21.7 类 作为 对 象 


Python 数据 模型 为 每 个 类 定义 了 很 多 属性 ， 参 见 标 准 库 参 考 中 “Built-in Types” 一 章 的 “4.13. 
Special Attributes” 一 节 Chttps://docs.python.org/3/library/stdtypes.html#special-attributes) 。 
其 中 三 个 属性 在 本 书 中 已 经 见 过 多 次 : _ mro _、 class 和 name 。 此 外 ， 还 有 
以 下 属性 。 

















cls.__bases__ 
由 类 的 基 类 组 成 的 元 组 。 
cls. qualname _ 


Python 3.3 新 引入 的 属性 ， 其 值 是 类 或 函数 的 限定 名 称 ， 即 从 模块 的 全 局 作用 域 到 类 
的 点 分 路 径 。 例 如 ， 在 示例 21-6 中 ， 内 部 类 ClassTwo 的 qualname 属性 ， 其 值 是 
FFÆ 'ClassOne.ClassTwo', m _name _ 属性 的 值 是 'ClassTwo'。 这 个 属性 的 规 
范 是 “PEP 3155—Qualified name for classes and 
functions” Chttps://www.python.org/dev/peps/pep-3155/) o 

















cls.__ subclasses () 
这 个 方法 返回 一 个 列表 ， 包 含 类 的 直接 子 类 。 这 个 方法 的 实现 使 用 弱 引 用 ， 防 止 在 超 


类 和 子 类 《〈 子 类 在 __bases_ “属性 中 储存 指向 超 类 的 强 引用 ) 之 间 出 现 循环 引用 。 这 个 
方法 返回 的 列表 中 是 内 存 里 现存 的 子 类 。 


























cls.mro() 


构建 类 时 ， 如 果 需 要 获取 储存 在 类 属性 ”mro_ “中 的 超 类 元 组 ， 解 释 器 会 调用 这 个 
方法 。 元 类 可 以 覆盖 这 个 方法 ， 定 制 要 构建 的 类 解析 方法 的 顺序 。 






































A dir(...) 函数 不 会 列 出 本 节 提 到 的 任何 一 个 属 ! 


我 们 对 类 元 编程 的 学 习 到 此 结束 。 这 是 个 很 大 的 话题 ， 我 只 讲 了 皮毛 。 因 此 ， 本 书 各 章 都 
有 “延伸 阅读 ”一 节 。 








21.8 ”本章 小 结 


类 元 编程 是 指 动态 创建 或 定制 类 。 在 Python 中 ， 类 是 一 等 对 象 ， 因 此 本 章 首 先 说 明 如 何 
通过 调用 内 置 的 type 元 类 ， 使 用 函数 创建 类 。 


接 下 来 的 一 节 继 续 讨论 第 20 章 使 用 描述 符 实现 的 LineItem 类 ， 解 决 一 个 遗留 问题 : 如 
何 让 生成 的 储存 属性 名 中 包含 托管 属性 的 名 称 〈 例 如 ， 把 _Quantity#1 变 成 
_Quantity#price) 。 解 决 办 法 是 使 用 类 装饰 器 。 说 到 底 ， 类 装饰 器 是 函数 ， 其 参数 是 
被 装饰 的 类 ， 用 于 审查 和 修改 刚 创 建 的 类 ， 甚 至 蔡 换 成 其 他 类 。 


然后 ， 本 章 讨 论 了 模块 中 不 同 部 分 的 代码 何 时 运行 。 我 们 发 现 ， 所 谓 的 “导入 时 ”和 “运行 
IN ZA, MRH, import 语句 会 触发 运行 大 量 代 码 。 知 道 代码 何 时 运行 至 关 
重要 ， 可 是 有 些 规 则 难以 捉摸 ， 因 此 我 们 通过 两 个 计算 时 间 练 习 对 此 做 了 说 明 。 


接 下 来 ， 本 章 介绍 了 元 类 。 我 们 得 知 ， 所 有 类 都 直接 或 间接 地 是 type 的 实例 ， 因 此 在 
Python 中 ，type 是 “ 根 元 类 ”。 然 后 ， 我 们 对 之 前 的 计算 时 间 练 习 做 了 修改 ， 以 此 说 明 元 
eG nae 类 装饰 器 则 不 同 ， 它 只 能 影响 一 个 类 ， 而 且 对 后 代 可 能 没有 影 
Ha] 。 


随后 ， 我 们 实际 使 用 元 类 ， 解 决 LineItem 类 中 储存 属性 的 命名 问题 。 最 终 写 出 的 代码 比 
类 装饰 器 难 懂 一 些 ， 不 过 可 以 封装 在 一 个 模块 里 ， 这 样 用 户 只 需 继承 看 似 普通 的 一 个 类 
(model.Entity) ， 而 不 用 知道 它 是 元 类 (model.EntityMeta) 的 实例 。 这 种 处 理 方 
A Django 和 SQLAIchemy 的 ORM API: 使 用 元 类 实现 ， 用 户 却 根本 无 需 知 
JE o 




















































































































我 们 实现 的 第 二 个 元 类 为 model .EntityMeta 类 添加 了 一 个 小 功能 : 定义 __prepare__ 
方法 ， 返 回 一 个 OrderedDict 对 象 ， 用 于 储存 名 称 到 属性 的 映射 。 这 样 做 能 保留 要 构建 
的 类 在 定义 体 中 绑 定 属性 的 顺序 ， 提 供给 元 类 的 __new_ 和 __init__ 等 方法 使 用 。 在 
这 个 示例 中 ， 我 们 定义 了 类 属性 _field_names， 因 此 用 户 可 以 使 用 
Entity.field_names() 方法 以 Validated 描述 符 出 现在 源码 中 的 顺序 获取 描述 符 。 


最 后 一 节 ， 我 们 概述 了 Python 为 所 有 类 提供 的 属性 和 方法 。 


元 类 是 充满 挑战 、 让 人 兴奋 的 功能 ， 有 时 会 被 故 作 聪明 的 程序 员 洲 用 。 最 后 ， 我 们 回顾 一 
下 Alex Martelli 在 他 写 的 “水 禽 和 抽象 基 类 ”一 文 的 最 后 给 我 们 的 建议 : 



































































































































能 是 因为 你 想 “ 找 荐 "， 刚 拿 到 新 工具 的 人 都 有 大 干 一 场 的 冲动 。 如 果 你 能 避 开 这 些 深 
奥 的 概念 ， 你 〈 以 及 未 来 的 代码 维护 者 ) 的 生活 将 更 愉快 ， 因 为 代码 简洁 明了 。 


Alex Martelli 


说 出 上 述 至 理 名 言 的 人 不 仅 是 Python WENI, bei UAE LIM, oe 
界 上 几 个 最 重要 的 Python 应 用 。 


























21.9 延伸 阅读 


为 了 深入 学 习 本 章 所 述 的 知识 ， 一 定 要 阅读 Python 语言 参考 手册 中 “Data Model” 一 章 里 
的 “3.3.3. Customizing class creation” — 

(https://docs.python.org/3/reference/datamodel.html#metaclasses ) ~ “Built-in Functions” 一 章 
H type 类 的 文档 Chttps://docs.python.org/3/library/functions.html#type) ， 以 及 标准 库 参 考 
中 “Built-in Types” 一 章 里 的 “4.13. Special Attributes” 一 节 

(https://docs.python.org/3/library/stdtypes.html#special-attributes) 。 此 外 ， 在 标准 库 参 考 
H, types 模块 的 文档 Chttps://docs.python.org/3/library/types.html) 说 明了 Python 3.3 引入 
的 两 个 新 函数 ， 这 两 个 函数 用 于 辅助 类 元 编程 : types.new_class(...) 和 types. 


prepare_class(...)。 








类 装饰 器 的 规范 是 “PEP 3 129—Class Decorators” (https://www.python.org/dev/peps/pep- 
3129/) ， 作 者 是 Collin Winter， 参 考 实现 由 Jack Diederich Heft. Jack Diederich 在 PyCon 
2009 大 会 上 做 了 一 场 题 为 “Class Decorators: Radically Simple” 的 演讲 〈 视 

Ai: https://www.youtube.com/watch?v=cAGIiEJV9_ o) ， 对 这 个 功能 做 了 简单 介绍 。 


Alex Martelli 写 的 《Python 技术 手册 (第 2 版 》 对 元 类 的 说 明 很 出 色 ， 还 实现 了 
metaMetaBunch 元 类 ， 其 作用 与 示例 21-2 中 简单 的 record_factory 函数 一 样 ， 不 过 完 
善 得 多 。Martelli 没有 探讨 类 装饰 器 ， 因 为 这 个 功能 在 那 本 书 出 版 后 才 引 入 。Beazley 和 
Jones 在 他 们 合 著 的 《Python Cookbook ($E 3 版 ) 中 文 版 》 中 提供 了 几 个 示例 ， 很 好 地 演 
示 了 类 装饰 器 和 元 类 。Michael Foord 写 了 一 篇 引人入胜 的 文章 ， 题 为 "Meta-classes Made 
Easy: Eliminating self with 

Metaclasses” (http://www.voidspace.org.uk/python/articles/metaclasses.shtml) 。 副 标题 (“fe 
助 元 类 去 掉 self’) 说 明了 一 切 。 


元 类 的 主要 参考 资料 有 引入 特殊 方法 prepare _ 的 “PEP 3115—Metaclasses in Python 
3000” Chttps://www.python.org/dev/peps/pep-3115/) ， 以 及 Guido van Rossum 发 布 的 文 

章 “Unifying types and classes in Python 

2.2” Chttps://www.python.org/download/releases/2.2.3/descrintro/) 。 这 篇 文章 也 适用 于 
Python3， 谈 到 了 后 来 称 为 “新 式 类 ”的 语义 ， 包 括 描述 符 和 元 类 ， 一 定 要 阅读 。Guido 在 文 
中 提 到 了 Ira R. Forman 与 Scott H. Danforth 合 著 的 Putting Metaclasses to Work: a New 
Dimension in Object-Oriented Programming ( Addison- Wesley 出 版 社 ，1998 年 ) ， 他 在 亚 
马 进 上 给 这 本 书 打 了 五 颗 星 ， 还 写 了 如 下 评论 : 


这 本 书 促成 Python 2.2 实现 了 元 类 


可 惜 ， 这 本 书 已 经 绝版 了 。Python 通过 super() 函数 实现 了 协作 式 多 重 继承 ， 谈 到 
这 方面 的 难题 时 ， 我 总 会 提 到 这 本 书 ， 据 我 所 知 ， 这 本 书 是 这 方面 最 好 的 教程 。6 




























































































6 摘自 亚马逊 网 站 中 Putting Metaclasses to Work 的 商品 目录 页 面 Chttpy/amzn.to/IHGwKDO) 。 目 前 还 有 二 手书 出 售 。 
我 买 了 一 本 ， 发 现 很 难 读 懂 ， 不 过 以 后 我 可 能 会 再 读 。 




















“PEP 487 一 Simpler customization of class creation” Chttps://www.python.org/dev/peps/pep- 
0487/) 提议 为 Python 3.5〈 写 到 这 里 时 ， 处 于 内 测 阶段 ) 添加 一 个 新 的 特殊 方法 





__init_subclass__, "让 普通 的 类 〈 即 ， 不 是 元 类 ) 定制 子 类 的 初始 化 。 与 类 装饰 器 
一 样 ，_init_subclass_ 方法 能 让 类 元 编程 变 得 更 简单 ， 但 会 导致 元 类 这 个 强大 的 功 
能 更 难 正确 使 用 。 


TE, Python 3.5 已 经 正式 发 布 ，PEP 487 没有 在 Python 3.5 中 实现 ， 而 是 推迟 到 Python 3.6 F. 编者 注 















































如 果 你 喜欢 元 编程 ， 可 能 希望 Python 提供 基本 的 元 编程 功能 Elixir 和 Lisp 语言 族 提供 
WAVER. RAR, RITA MacroPy Chttps://github.com/lihaoyi/macropy) 可 用 。 











杂谈 


这 是 本 书 最 后 一 篇 杂谈” 了， 首先 我 要 从 Brian Harvey 与 Matthew Wright 合 写 的 著作 
中 引述 一 大 段 文 字 。Harvey 和 Wright 是 加 州 大 学 《伯克利 分 校 和 圣 巴巴 拉 分 校 ) 的 
计算 机 科学 教授 ， 他 们 在 合 著 的 Simply Scheme 一 书 中 写 道 : 


计算 机 科学 的 教学 方式 分 成 两 个 流派 ， 可 以 描述 如 下 。 


(1) 保守 派 计算 机 程序 已 经 变 得 极其 大 而 复 林 ， 超 过 了 人 类 思维 所 能 承载 的 限 
度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 训练 平庸 的 程序 员 ， 这 样 500 个 人 合作 便 
开发 出 恰好 满足 需求 的 程序 。 


(2) 激 进 派 计算 机 程序 已 经 变 得 极其 大 而 复杂 ， 超 过 了 人 类 思维 所 能 承载 的 限 
度 。 因 此 ， 计 算 机 科学 教育 的 任务 是 教 人 如 何 拓展 思维 ， 打 破 常规 ， 学 习 以 更 广 
博 、 更 强大 和 更 灵活 的 方式 思考 ， 让 思维 超越 程序 。 编 程 思 想 的 各 个 方面 在 程序 
中 必 会 得 到 充分 体现 。8[Brian Harvey and Matthew Wright, Simply Scheme (MIT 
Press, 1999), p. xvii. 伯克利 分 校 的 网 站 中 有 此 书 全 文 
Chttps://www.eecs.berkeley.edu/~bh/ss-toc2.html) 。]} 
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Brian Harvey 和 Matthew Wright 
Simply Scheme 前 言 


这 是 Harvey 和 Wright 对 计算 机 科学 教育 的 夸张 描述 ， 不 过 也 适用 于 编程 语言 的 设 
计 。 现 在 ， 你 应 该 能 猜 到 ， 我 赞成 “激进 派 ”， 我 认为 Python 也 是 以 这 种 态度 设计 
的 。 


为 了 稳扎稳打 ，Java 从 一 开始 使 用 的 就 是 存 取 方法 ， 而 且 众多 Java IDE 都 提供 了 生 
成 读 值 方法 和 设 值 方法 的 快捷 键 ， 与 此 相 比 ， 特 性 算是 一 大 进步 。 特 性 的 主要 优点 
是 ， 一 开始 编写 程序 时 可 以 先 把 属性 设 为 公开 的 (遵照 KISS 原则 ) ， 因 为 公开 的 属 
性 无 需 大 幅 改 动 ， 随 时 都 能 变 成 特性 。 不 过 ， 描 述 符 更 进一步 ， 提 供 了 去 除 存 取 方 法 
ee eT a et ee 
述 符 。 
另 一 个 强大 的 想法 是 ， 把 函数 当 作 一 等 对 象 ， 这 为 高 阶 函 数 铺 平 了 道路 。 描 述 符 和 高 
阶 函 数 合 在 一 起 实现 ， 使 得 函数 和 方法 的 统一 成 为 可 能 。 函 数 的 get _ 方法 能 即 
时 生成 方法 对 象 ， 把 实例 绑 定 到 self 参数 上 。 这 种 做 法 相当 优雅 。? 


最 后 ，Python 中 的 类 也 是 一 等 对 象 。 作 为 一 门 对 初学 者 友好 的 语言 ，Python 能 提供 类 
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装饰 器 ， 人 允许 用 户 定 义 功能 完整 的 元 类 ， 这 些 强 大 的 抽象 真是 太 棒 了 。 最 棒 的 是 ， 这 
些 高 级 功能 没有 拖累 日 常 编程 《其 实 无 形 中 提供 了 帮助 ) 。Django 和 SQLAIchemy 等 
框架 用 起 来 这 么 方便 ， 发 展 得 这 么 成 功 ， 很 大 程度 上 归功 于 元 类 ， 而 这 些 工 具 的 用 户 
甚至 不 知道 元 类 的 存在 。 不 过 ， 他 们 可 以 学 习 ， 去 创建 下 一 个 伟大 的 库 。 


我 还 未 见 过 有 哪 门 语言 像 Python 这 样 竭尽 所 能 ， 让 初学 者 易于 入 门 ， 让 专业 人 士 用 
着 顺手 ， 让 程序 高 手 欢欣 鼓舞 。 感 谢 Guido vanRossum， 以 及 为 此 努力 的 每 个 人 。 
























































?David Gelernter 写 的 Machine Beauty (Basic Books 出 版 社 ) 是 一 本 非常 有 趣 的 小 书 ， 对 工程 作品 〈 从 桥梁 到 软件 ) 的 
优雅 和 美学 做 了 阐述 。 








结语 


wm 一 


Python 是 给 法 定 成 年 人 使 用 的 语言 。 





Alan Runyan 
Plone 的 联合 创始 人 


Alan 的 精辟 定义 道 出 了 Python 最 好 的 特质 之 一 : 它 不 妨碍 你 ， 让 你 做 你 该 做 的 事 。 这 也 
ERE, 它 不 会 给 你 提供 工具 ， 让 你 限制 其 他 人 能 对 你 的 代码 和 代码 所 构建 的 对 象 做 什 
么 。 


当然 ，Python 不 完美 。 对 我 来 说 ， 最 没 法 接受 的 是 ，Python 在 标准 库 中 混用 驼峰 式 和 蛇 底 
式 ， 或 者 直接 把 单词 连 在 一 起 。 但 是 ， 语 言 的 定义 和 标准 库 只 是 生态 系统 的 一 部 分 。 用 户 
和 贡献 者 组 成 的 社区 才 是 Python 生态 系统 最 重要 的 部 分 。 


有 一 个 例子 可 以 说 明 社 区 的 好 处 。 一 天 早上 ， 我 在 撰写 asyncio 包 相 关 的 内 容 时 ， 感 到 
IRAE, HARTAKA API 有 很 多 函数 ， 其 中 有 些 是 协 程 ， 可 是 协 程 必 须 使 用 yield 
from 调用 ， 而 常规 的 函数 不 能 这 么 做 。 这 在 asyncio 包 的 文档 中 有 说 明 ， 可 是 有 时 阅读 
几 段 文字 之 后 才能 确定 某 个 函数 是 不 是 协 程 。 因 此 ， 我 给 python-tulip 邮件 列表 发 了 一 个 
消息 ， 题 为 “Proposal: make coroutines stand out in the asyncio 

docs” Chttps://groups.google.com/forun/#!topic/python-tulip/Y4bhLNbKs74) . asyncio 包 的 
核心 开发 者 Victor Stinner, aiohttp 包 的 主要 作者 Andrew Svetlov, Tornado 的 首席 开发 
者 Ben Darnell, LAA Twisted 的 发 明 者 Glyph Lefkowitz 加 入 了 讨论 。Darnell 提出 了 一 个 
方案 ，Alexander Shorin 解说 如 何在 Sphinx 中 实现 ，Stinner 添加 了 所 需 的 配置 和 标记 。 我 
提出 这 个 问题 不 到 12 小 时 ，asyncio 包 的 整个 线 上 文档 都 更 新 了 ， 添 加 了 今天 你 所 看 到 
的 “coroutine” 标 签 (https://docs.python.org/3/library/asyncio-eventloop.html#executor) 。 


在 排外 的 社区 中 绝 不 会 有 这 种 事 。 任 何人 都 能 加 入 python-tulip 邮件 列表 ， 我 编写 那个 提 
议 之 前 只 发 布 过 几 次 消息 而 已 。 这 个 故事 表明 ，Python 社区 特别 开放 ， 广 纳 新 想法 和 新 成 
ta. Guido van Rossum 也 在 python-tulip 邮件 列表 中 ， 即 使 是 简单 的 问题 也 经 常 回答 。 


还 有 一 个 例子 能 说 明 Python 的 开放 : Python 软件 基金 会 (Python Software Foundation， 
PSF) 一 直 在 努力 提升 Python 社区 的 多 样 性 ， 而 且 已 经 达成 一 些 令 人 欣喜 的 成 果 。2013 一 
2014 年 ，PSF 董事 会 首次 选 出 了 女性 董事 Jessica McKellar 和 Lynn Root。2015 年 在 蒙 
特 利 尔 举办 的 PyCon North America AZ (Diana Clarke EFF) ， 约 1/3 的 演讲 者 是 女性 。 
我 还 没 见 过 其 他 IT 大 会 如 此 追求 性 别 平等 。 


如 果 你 是 Python 程序 员 ， 但 尚未 加 入 社区 ， 我 建议 你 快 点 加 入 。 寻 找 你 所 在 地 区 的 

Python 用 户 组 (Python Users Group, PUG) 。 如 果 没 有 ， 那 就 创建 一 个 。 任 何 地 方 都 有 人 

使 用 Python， 你 并 不 孤独 。 如 果 可 能 的 话 ， 参 加 别处 举办 的 会 议 。 来 参加 PythonBrasil 大 

会 吧 ， 多 年 以 来 这 个 大 会 都 有 来 自 世 界 各 地 的 演讲 者 。 与 其 他 Python 程序 员 见 面 比 任何 

oe 除了 可 以 获得 别人 分 享 的 知识 外 ， 还 有 很 多 好 处 ， 例 如 工作 机 会 和 真正 的 
Wo 


我 知道 ， 如 果 没 有 多 年 来 我 在 Python 社区 中 结交 的 朋友 的 帮助 ， 我 不 可 能 写 出 这 本 书 。 











































































































我 的 父亲 说 过 ，“S6 erra quemtrabalha”， 这 是 葡萄 牙 语 ， 意 思 是 “只 有 真正 做 事 的 人 才 会 
犯错 ”"。 这 个 建议 很 棒 ， 能 让 你 不 再 害怕 失败 ， 迈 步 同 前 。 撰 写 这 本 书 的 过 程 中 ， 我 肯定 
犯 了 错误 。 审 校 、 编 辑 和 预先 发 布 版 的 读者 帮 有 我 找 出 了 很 多 错误 。 早 期 发 布 版 刚 发 布 几 小 
时 ， 就 有 一 个 读者 在 本 书 的 勘误 页 面 (http://www.oreilly.com/catalog/errata.csp? 
isbn=0636920032519) 报告 拼写 错误 。 其 他 读者 报告 了 更 多 错误 ， 我 的 朋友 还 直接 联系 
我 ， 提 供 建议 和 更 正 。 我 写 完 本 书后 ，O'Reilly 的 文字 编辑 会 在 出 版 过 程 中 找 出 其 他 错 
误 。 如 果 还 有 任何 错误 和 词 不 达意 的 表述 ， 责 任 都 在 我 ， 在 此 癌 各 位 读者 致歉 。 


终于 写 完 这 本 书 了 ， 我 特别 高 兴 ， 无 论 有 没有 错误 ， 我 都 十 分 感激 一 路 上 给 我 帮助 的 每 个 
人 。 















































希望 很 快 就 能 在 会 议 上 见 到 你 。 如 果 见 到 我 ， 请 过 来 打 声 招呼 。 


延伸 阅读 


在 本 书 的 最 后 ， 我 要 介绍 一 些 “Python 风格 ”的 参考 资料 一 一 这 正 是 本 书 尝 试 解决 的 主要 问 
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Brandon Rhodes 是 位 出 色 的 Python 教师 ， 他 的 演讲 “A Python Æsthetic: Beauty and Why I 
Python” Chttps://www.youtube.com/watch?v=x-kB208sd5c) 很 精彩 ， 从 标题 中 使 用 的 
Unicode 字符 U+00C6 拉丁 语 大 写字 母 AE) 开始 谈 起 。 另 一 位 出 色 的 教师 Raymond 
Hettinger， 在 2013 年 的 PyCon US 大 会 上 谈 了 Python 之 美 : “Transforming Code into 
Beautiful, Idiomatic Python” Chttps://www.youtube.com/watch?v=OSGv2VnC0go) 。 








Ian Lee 在 Python-ideas 邮件 列表 中 发 起 的 “Evolution of Style Guides” ii el 
Chttps://mail.python.org/pipermail/python-ideas/2015-March/032557.html) 值得 一 读 。Lee 是 

pep8 包 〈https://pypi.python.org/pypi/pep8/〉 的 维护 者 ， 这 个 包 的 作用 是 检查 Python 代码 

是 否 符 合 PEP 8。 检 查 书 中 的 代码 时 ， 我 用 的 是 

flake8 (https://pypi.python.org/pypi/flake8) ， 这 个 包 融 合 了 

pep8、pyflakes (https://pypi.python.org/pypi/pyflakes) 和 Ned Batchelder 开发 的 McCabe 

复杂 度 插件 Chttps://pypi.python.org/pypi/mecabe) 。 


除了 PEP8, Google 的 Python 风格 指南 Chttps://google- 
styleguide.googlecode.con/svn/trunk/pyguide.html) 和 Pocoo 风格 指南 

Chttp://www.pocoo.org/internal/styleguide/) 也 有 很 大 的 影响 。Pocoo 团队 为 我 们 开发 了 
Flask、Sphinx、Jinja 2 和 其 他 优秀 的 Python 库 。 




















The Hitchhiker's Guide to Python! (http://docs.python-guide.org/en/latest/) 由 多 人 维护 ， 说 明 
如 何 编写 符号 Python 风格 的 代码 。 为 这 个 项 目 贡献 最 多 内 容 的 是 Kenneth Reitz， 他 因 开 发 
特别 符合 Python 风格 的 requests 包 而 被 社区 视 为 英雄 。David Goodger 在 2008 年 举办 的 
PyCon US 大 会 上 办 了 一 场 教学 活动 ， 题 为 "Code Like a Pythonista: Idiomatic 

Python” Chttp://python.net/~goodger/projects/pycon/2007/idiomatic/handout.html) 。 如 果 打 印 
出 来 ， 这 个 教程 的 教案 有 30 页 。 当 然 ， 教 案 的 reStructuredText 源码 能 下 载 到 ， 可 以 使 用 
docutils 将 其 演 染 成 HTML 和 S5 AJKT Hr Chttp://meyerweb.com/eric/tools/s5/) 。 毕 竟 ， 
reStructuredText 和 docutils 都 是 Goodger 的 作品 。 这 两 个 工具 是 Sphinx 的 基础 。Sphinx 
是 优秀 的 Python 文档 系统 ， 顺 便 提 一 下 ， 

MongoDB (https://docs.mongodb.org/manual/about/#about-the-documentation-process) 和 很 多 
其 他 项 目的 官方 文档 系统 都 是 Sphinx。 


Martijn Faassen 直接 回答 了 “什么 是 Python 风格 ”这 个 问题 
(http://blog.startifact.com/posts/older/what-is-pythonic.html) , python-list 邮件 列表 中 也 有 一 
个 相同 标题 的 话题 Chttps://mail.python.org/pipermail/tutor/2003-October/025930.html) 。 
Martijn 的 文章 是 2005 年 写 的， 那个 话题 是 2003 年 讨论 的 ， 不 过 Python 风格 的 思想 没 怎 
么 变化 ，Python 语言 本 身 也 是 如 此 。“Pythonic way to sum n-th list element?” 话 题 
Chttps://mail.python.org/pipermail/python-list/2003-April/192027.html) X} Python 风格 做 了 深 
入 讨论 ， 我 在 第 10 章 的 “杂谈 ”中 有 大 量 引 用 。 


“PEP 3099 — Things that will Not Change in Python 





























3000” Chttps://www.python.org/dev/peps/pep-3099/) 解释 了 经 过 Python 3 大 幅度 的 调整 之 
后 ， 为 何许 多 东西 仍 是 现在 的 样子 。 长 久 以 来 ，Python 3 有 个 昵称 一 -Python 3000， 不 过 
诞生 时 间 早 了 几 个 世纪 ， 这 让 一 些 人 失望 。PEP 3099 的 作者 是 Georg Brandl， 他 收集 了 仁 
花 的 独裁 者 〈 即 Guido van Rossum) 的 很 多 观点 。Python Essays 页 面 
Chttps://www.python.org/doc/essays/) 列 出 了 很 多 Guido 自己 写 的 文章 。 











附录 A 辅助 脚本 


有 些 脚 本 太 长 ， 在 正文 里 放 不 下 ， 这 里 将 其 完整 列 出 。 此 外 ， 有 些 脚本 用 于 生成 书 中 的 表 
格 和 数据 ， 这 里 一 并 列 出 。 


这 里 列 出 的 脚本 ， 以 及 书 中 几乎 每 个 代码 片段 ， 见 于 本 书 的 代码 仓库 
Chttps://github.com/fluentpython/example-code) 。 





Al 第 3 章 : in 运算 符 的 性 能 测试 


K 3-6 中 的 计时 数据 是 我 使 用 示例 A-1 中 的 代码 生成 的 ， 这 段 代 码 用 到 了 timeit 模块 。 
这 个 脚本 主要 用 于 设置 haystack 和 needles 样本 ， 并 格式 化 输出 。 


编写 示例 A-1 时 ， 我 发 现 的 确 能 客观 比较 dict 的 性 能 。 如 果 在 “详细 模式 ”( 指 定 命令 行 
选项 -v) 中 运行 这 个 脚本 ， 用 时 几乎 是 表 3-5 中 的 两 倍 。 但 是 注意 ， 对 这 个 脚本 来 说 ， 
在 “详细 模式 ”中 ， 只 是 多 了 用 于 设置 测试 内 容 的 四 个 print 调用 ， 以 及 在 各 个 测试 结束 
后 显示 找到 多 少 个 needles 的 那个 print 调用 。 在 haystack 中 搜索 needles 的 那个 循 
环 没有 输出 ， 不 过 这 五 个 print 调用 耗费 的 时 间 与 搜索 1000 个 needles BAZ. 


示例 A-1 container perftestpy: 运行 时 以 内 置 集合 类 型 的 名 称 为 命令 行 参数 〈 例 如 
container_perftest.py dict) 















































对 容器 的 ”in 运算 符 做 性 能 测试 


import sys 
import timeit 


SETUP = ''' 
import array 


selected = array.array('d') 
with open('selected.arr', 'rb') as fp: 
selected.fromfile(fp, {size}) 
if {container_type} is dict: 
haystack = dict.fromkeys(selected, 1) 
else: 
haystack = {container_type}(selected) 
if {verbose}: 
print(type(haystack), end=' ') 
print('haystack: %10d' % len(haystack), end=' ') 
needles = array.array('d') 
with open('not_selected.arr', 'rb') as fp: 
needles. fromfile(fp, 500) 
needles.extend(selected[::{size}//500]) 
if {verbose}: 
print(' needles: %10d' % len(needles), end=' ') 


TEST = ''! 
found = 6 
for n in needles: 
if n in haystack: 
found += 1 
if {verbose}: 
print(' found: %10d' % found) 


def test(container_type, verbose): 
MAX_EXPONENT = 7 
for n in range(3, MAX_EXPONENT + 1): 





size = 10**n 


setup = SETUP.format(container_type=container_type, 
size=size, verbose=verbose) 


test = TEST. format(verbose=verbose) 


tt = timeit.repeat(stmt=test, setup=setup, repeat=5, number=1) 
print('|{:{}d}|{:f}'.format(size, MAX_EXPONENT + 1, min(tt))) 


if _ name_=='_ main_': 
if '-v' in sys.argv: 
sys.argv.remove('-v') 
verbose = True 
else: 
verbose = False 
if len(sys.argv) != 2: 


print('Usage: %s <container_type>' % sys.argv[@]) 


else: 
test(sys.argv[1], verbose) 





container_perftest_datagen.py 脚本 〈 见 示例 A-2) 为 示例 A-1 中 的 脚本 生成 固件 数据 。 








示例 A-2 container perftest datagen.py: 生成 由 




















文件 ， 供 示例 A-1 使 用 





生成 容器 性 能 测试 所 需 的 数据 














import random 
import array 


MAX_EXPONENT = 7 

HAYSTACK_LEN = 10 ** MAX_EXPONENT 

NEEDLES LEN = 16 ** (MAX_EXPONENT - 1) 
SAMPLE_LEN = HAYSTACK_LEN + NEEDLES_LEN // 2 


needles = array.array('d') 


不 同 的 浮 点 数组 成 的 数组 ， 然 后 写 入 


sample = {1/random.random() for i in range(SAMPLE_LEN)} 


print('initial sample: %d elements' % len(sample)) 


# 完整 的 样本 ， 防 止 丢弃 了 重复 的 随机 数 
while len(sample) < SAMPLE_LEN: 
sample.add(1/random.random() ) 





print('complete sample: %d elements' % len(sample)) 


sample = array.array('d', sample) 
random. shuffle(sample) 


not_selected = sample[:NEEDLES LEN // 2] 

print('not selected: %d samples' % len(not_selected) ) 

print(' writing not_selected.arr') 

with open('not_selected.arr', 'wb') as fp: 
not_selected.tofile(fp) 


selected = sample[NEEDLES LEN // 2:] 
print('selected: %d samples' % len(selected) ) 








print(' writing selected.arr') 
with open('selected.arr', 'wb') as fp: 
selected.tofile(fp) 





A.2 第 3 章 : 比较 散 列 后 的 位 模式 


示例 A-3 是 个 简单 的 脚本 ， 告 诉 你 相似 浮 点 数 〈 例 如 1.0001、1.0002， 等 等 ) 的 位 模式 有 
什么 差异 。 这 个 脚本 的 输出 在 示例 3-16 中 。 


示例 A-3 hashdiffipy: 显示 散 列 值 的 位 模式 有 何 差异 








import sys 


MAX_BITS = len(format(sys.maxsize, 'b')) 
print('%s-bit Python build' % (MAX_BITS + 1)) 


def hash_diff(o1, 02): 
h1 = '{:>0{}b}'.format(hash(o1), MAX_BITS) 
h2 = '{:>0{}b}'.format(hash(o2), MAX_BITS) 
diff = ''.join('!' if b1 != b2 else ' ' for b1, b2 in zip(h1, h2)) 


count = '!= {}'.format(diff.count('!')) 
width = max(len(repr(o1)), len(repr(o2)), 8) 
sep = '-' * (width * 2 + MAX BITS) 
return '{!r:{width}} {}\n{:{width}} {} {}\n{!r:{width}} {}\n{}' .format( 
01, h1, ' ' * width, diff, count, 02, h2, sep, width=width) 
if _name == ' main_': 


print(hash_diff(1, 1.0)) 
print(hash_diff(1.0, 1.0001) ) 
print(hash_diff(1.0001, 1.0002)) 
print(hash_diff(1.0002, 1.0003)) 











A3 9H: 有 或 没有 slots 时 ，RAM 的 用 量 
memtest.py 脚本 用 于 支持 9.8 节 的 一 个 演示 一 一 示例 9-12。 

memtest.py 脚本 从 命令 行 中 接收 一 个 模块 的 名 称 ， 加 载 那个 模块 。 假 设 模块 中 定义 有 一 个 
名 为 Vector 的 类 ，memtestpy 脚本 会 创建 一 个 由 一 干 万 个 实例 组 成 的 列表 ， 然 后 报告 创 
建 列表 前 后 内 存 的 用 量 。 


示例 A-4 memtestpy: 创建 大 量 Vector 实例 ， 报 告 内 存 用 量 















































import importlib 
import sys 
import resource 


NUM_VECTORS = 10**7 


if len(sys.argv) == 2: 
module_name = sys.argv[1].replace('.py', '') 
module = importlib.import_module(module_name) 
else: 
print('Usage: {} <vector-module-to-test>'.format()) 
sys.exit(1) 


fmt = 'Selected Vector2d type: {._ name }.{._ name }' 
print(fmt.format(module, module.Vector2d) ) 


mem_init = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 
print('Creating {:,} Vector2d instances'.format(NUM_VECTORS) ) 


vectors = [module.Vector2d(3.@, 4.0) for i in range(NUM_VECTORS) ] 
mem_final = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss 


print('Initial RAM usage: {:14,}'.format(mem_init) ) 
print(' Final RAM usage: {:14,}'.format(mem_final) ) 








A4 第 14 章 : 转换 数据 库 的 isis2json.py 脚 本 


示例 A-5 是 14.13 节 讨 论 的 isis2json.py 脚本 。 这 个 脚本 使 用 生成 器 函数 ， 以 惰 
把 CDS/ISIS 数据 库 转 换 成 JSON 格式 ， 以 便 载 入 到 CouchDB 或 MongoDB。 


注意 ， 这 是 个 Python 2 脚本 ， 针 对 CPython 或 Jython， 支 持 Python 2.5~2.7， 不 能 使 用 
Python 3 运行 。 在 CPython 中 ， 只 能 读 取 iso 文件 ;在 Jython 中 ， 使 用 GitHub 中 
fluentpython/isis2json 仓库 (https://github.com/fluentpython/isis2json〉 里 的 Bruma 库 ， 还 可 
以 读 取 .mst 文件 。 详 情 参见 该 仓库 里 的 用 法 文档 。 


性 的 方式 














示例 A-5 isis2json.py: 依赖 和 文档 在 GitHub 中 的 fluentpython/isis2json 仓库 里 





# 这 个 脚本 支持 Python 和 Jython 〈 版 本 >=2.5 且 &lt;3) 


import sys 

import argparse 

from uuid import uuid4 
import os 


try: 
import json 
except ImportError: 
if os.name == 'java': # 在 Jython 中 运行 
from com.xhaus.jyson import JysonCodec as json 
else: 
import simplejson as json 





SKIP_INACTIVE = True 
DEFAULT_QTY = 2**31 

ISIS MFN KEY = 'mfn' 
ISIS_ACTIVE_KEY = 'active' 
SUBFIELD_DELIMITER = '^' 
INPUT_ENCODING = ‘'cp1252' 


def iter_iso_records(iso file name, isis json type): © 
from iso2709 import IsoFile 
from subfield import expand 


iso = IsoFile(iso_file_name) 
for record in iso: 
fields = {} 
for field in record.directory: 
field _key = str(int(field.tag)) # 删除 前 导 零 
field_occurrences = fields.setdefault(field_key, []) 
content = field.value.decode(INPUT_ENCODING, ‘replace’ ) 
if isis json type == 1: 
field_occurrences.append(content) 
elif isis json type == 
field_occurrences.append(expand(content) ) 
elif isis json type == 
field_occurrences.append(dict(expand(content) )) 
else: 
raise NotImplementedError('ISIS-JSON type %s conversion ' 








"not yet implemented for .iso input' % isis json type) 


yield fields 
iso.close() 


def iter_mst_records(master_file name, isis json_type): @ 
try: 
from bruma.master import MasterFactory, Record 
except ImportError: 
print('IMPORT ERROR: Jython 2.5 and Bruma.jar ' 
"are required to read .mst files’) 
raise SystemExit 
mst = MasterFactory.getInstance(master_file_name) .open() 
for record in mst: 
fields = {} 
if SKIP_INACTIVE: 
if record.getStatus() != Record.Status.ACTIVE: 
continue 
else: # 仅 当 没有 活动 的 记录 时 才 保 存 状 态 
fields[ISIS ACTIVE KEY] = (record.getStatus() == 
Record.Status .ACTIVE) 
fields[ISIS MFN KEY] = record.getMfn() 
for field in record.getFields(): 
field_key = str(field.getId()) 
field_occurrences = fields.setdefault(field_key, []) 
if isis json type == 
content = {} 
for subfield in field.getSubfields(): 
subfield_key = subfield. getId() 
if subfield_key == '*': 
content['_'] = subfield. getContent() 
else: 
subfield_occurrences = content.setdefault(subfield_key, []) 
subfield_occurrences.append( subfield. getContent() ) 
field_occurrences.append(content) 
elif isis json type == 
content = [] 
for subfield in field.getSubfields(): 
subfield_key = subfield. getId() 
if subfield_key == '*': 
content.insert(@, subfield.getContent()) 
else: 
content.append(SUBFIELD_DELIMITER + subfield_key + 
subfield. getContent()) 
field_occurrences.append(''.join(content) ) 
else: 
raise NotImplementedError('ISIS-JSON type %s conversion 
"not yet implemented for .mst input' % isis json type) 
yield fields 
mst.close() 





def write _json(input_gen, file name, output, qty, skip, id tag, © 
gen_uuid, mongo, mfn, isis _json_type, prefix, 
constant): 
start = skip 
end = start + qty 
if id_tag: 





id_tag = str(id_tag) 
ids = set() 
else: 
id_tag = 
for i, record in enumerate(input_gen): 
if i >= end: 
break 
if not mongo: 
if i == 
output.write('[') 
elif i > start: 
output.write(',') 
if start <= i < end: 
if id_tag: 
occurrences = record.get(id_tag, None) 
if occurrences is None: 
msg = ‘id tag #%s not found in record %s' 
if ISIS MFN_ KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise KeyError(msg % (id_tag, i)) 
if len(occurrences) > 1: 
msg = ‘multiple id tags #%s found in record %s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise TypeError(msg % (id_tag, i)) 
else: # 好 吧 ， 有 且 仅 有 一 个 id 字段 
if isis_json_type == 
id = occurrences[6] 
elif isis json type == 
id = occurrences[6][6][1] 
elif isis json type == 
id = occurrences[@]['_'] 
if id in ids: 
msg = ‘duplicate id %s in tag #%s, record 4%s' 
if ISIS MFN_KEY in record: 
msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) 
raise TypeError(msg % (id, id_tag, i)) 
record['_id'] = id 
ids.add(id) 
elif gen_uuid: 
record['_id'] = unicode(uuid4()) 
elif mfn: 
record['_id'] = record[ISIS MFN KEY] 
if prefix: 
# IEA SALE A EF) 
for tag in tuple(record): 
if str(tag).isdigit(): 
record[prefix+tag] = record[tag] 
del record[tag] # 这 就 是 迭代 元 组 的 原 
# 获取 标签 ， 但 不 直接 从 记录 字典 中 获取 
if constant: 
constant_key, constant_value = constant.split(':') 
record[constant_key] = constant_value 
output.write(json.dumps(record) .encode('utf-8')) 
output.write('\n') 
if not mongo: 
output.write(']\n') 























> 









































def main(): @ 
# 创建 解析 器 
parser = argparse.ArgumentParser( 
description='Convert an ISIS .mst or .iso file to a JSON array') 





# 添加 参数 
parser.add argument( 
"file name', metavar="'INPUT. (mst|iso)', 
help='.mst or .iso file to read') 
parser.add argument( 
"-o', '--out', type=argparse.FileType('w'), default=sys.stdout, 
metavar='OUTPUT.json', 
help='the file where the JSON output should be written’ 
' (default: write to stdout)') 
parser.add_argument( 
"-c', '--couch', action='store_true', 
help='output array within a "docs" item in a JSON document’ 
' for bulk insert to CouchDB via POST to db/_bulk_docs') 
parser.add_argument( 
"-m', '--mongo', action='store_true', 
help='output individual records as separate JSON dictionaries, one’ 
' per line for bulk insert to MongoDB via mongoimport utility’ ) 
parser.add_argument( 
"-t', '--type', type=int, metavar="ISIS JSON_TYPE', default=1, 
help='ISIS-JSON type, sets field structure: 1=string, 2=alist,' 
' 3=dict (default=1)') 
parser.add_argument( 
"-q', '--qty', type=int, default=DEFAULT_ QTY, 
help='maximum quantity of records to read (default=ALL) ') 
parser.add_argument( 
"-s', '--skip', type=int, default=0, 
help='records to skip from start of .mst (default=@) ') 
parser.add_argument( 
"-i', '--id', type=int, metavar='TAG_NUMBER', default=0, 
help='generate an "_id" from the given unique TAG field number’ 
' for each record' ) 
parser.add_argument( 
"-u', ‘'--uuid', action='store_true', 
help='generate an "_id" with a random UUID for each record’) 
parser.add_argument( 
"-p', '--prefix', type=str, metavar='PREFIX', default='"', 
help='concatenate prefix to every numeric field tag' 
" (ex. 99 becomes "v99")') 
parser.add_argument( 
"-n', '--mfn', action='store_true’, 
help='generate an "_id" from the MFN of each record’ 
' (available only for .mst input)') 
parser.add_argument( 
"-k', '--constant', type=str, metavar='TAG:VALUE', default="", 
help='Include a constant tag:value in every record (ex. -k type:AS)') 


# TODO: 实现 这 个 功能 ， 导 出 大 量 记录 供给 CouchDB 
parser.add_argument( 
"-r', '--repeat', type=int, default=1, 
help='repeat operation, saving multiple JSON files' 
' (default=1, use -r @ to repeat until end of input)') 


























# 解析 命令 行 





args = parser.parse_args() 
if args.file_name.lower().endswith('.mst'): 
input_gen_func = iter mst records © 
else: 
if args.mfn: 
print('UNSUPORTED: -n/--mfn option only available for .mst input.') 
raise SystemExit 
input_gen_func = iter_iso records © 
input_gen = input_gen_func(args.file_name, args.type) @ 
if args.couch: 
args.out.write('{ "docs" : ') 
write _json(input_gen, args.file_name, args.out, args.qty, © 
args.skip, args.id, args.uuid, args.mongo, args.mfn, 
args.type, args.prefix, args.constant) 
if args.couch: 
args.out.write('}\n') 
args.out.close() 


if _name == ' main_': 
main() 











@ iter_iso_records 生成 器 函数 读 取 .iso 文件 ， 产 出 记录 。 

© iter_mst_records 生成 器 函数 读 取 mst 文件 ， 产 出 记录 。 

© write json 函数 迭代 input_gen 生成 器 ， 输 出 json 文件 。 

O main 函数 读 取 命 令 行 参数 ， 然 后 根据 输入 文件 的 扩展 名 选择 .……. 








@...... 或 者 iter_iso_records 生成 器 函数 。 
@ 使 用 选中 的 生成 器 函数 构建 生成 器 对 象 。 
O 把 生成 器 作为 第 一 个 参数 传 给 write_json 函数 。 











A.5 16%: 出 租车 队 离 散 事件 仿真 
示例 A-6 是 16.9.2 节 讨 论 的 taxi_sim.py 脚本 的 完整 代码 。 


示例 A-6 taxi_simpy: 出 租车 队 仿真 程序 
































在 控制 台中 驱动 出 租车 : : 








>>> from taxi_sim import taxi_process 
>>> taxi = taxi_process(ident=13, trips=2, start_time=0) 
>>> next(taxi) 


Event(time=@, proc=13, action='leave garage’) 
>>> taxi.send(_.time + 7) 
Event(time=7, proc=13, action='pick up passenger’ ) 
>>> taxi.send(_.time + 23) 
Event (time=30, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 5) 
Event(time=35, proc=13, action='pick up passenger’ ) 
>>> taxi.send(_.time + 48) 
Event (time=83, proc=13, action='drop off passenger’ ) 
>>> taxi.send(_.time + 1) 
Event(time=84, proc=13, action='going home’) 
>>> taxi.send(_.time + 10) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 








运行 示例 : 有 两 辆 出 租车 ， 随 机 种 子 是 186。 这 是 有 效 的 doctest:: 








>>> main(num_taxis=2, seed=10) 

taxi: © Event(time=@, proc=@, action='leave garage’ ) 
taxi: © Event(time=5, proc=@, action='pick up passenger’ ) 
taxi: 1 Event(time=5, proc=1, action='leave garage’) 


taxi: Event(time=10, proc=1, action='pick up passenger’ ) 
taxi: Event(time=15, proc=1, action='drop off passenger’ ) 
taxi: Event(time=17, proc=0, action='drop off passenger’ ) 
taxi: Event(time=24, proc=1, action='pick up passenger’ ) 
taxi: Event(time=26, proc=@, action='pick up passenger’ ) 


taxi: Event(time=34, proc=0, action='going home’) 

taxi: Event(time=46, proc=1, action='drop off passenger’ ) 
taxi: Event(time=48, proc=1, action='pick up passenger’ ) 
taxi: Event(time=110, proc=1, action='drop off passenger' ) 
taxi: Event(time=139, proc=1, action='pick up passenger’ ) 
taxi: Event(time=140, proc=1, action='drop off passenger’ ) 
taxi: 1 Event(time=15@, proc=1, action='going home’) 

*** end of events *** 


1 
1 
0 
1 
0 
taxi: © Event(time=30, proc=@, action='drop off passenger') 
0 
1 
1 
1 
1 
1 








模块 末尾 有 个 更 长 的 运行 示例 。 








import random 
import collections 
import queue 
import argparse 
import time 


DEFAULT_NUMBER_OF_TAXIS = 3 
DEFAULT_END_TIME = 180 
SEARCH_DURATION = 5 
TRIP_DURATION = 20 
DEPARTURE_INTERVAL = 5 


Event = collections.namedtuple('Event', ‘time proc action') 


# BEGIN TAXI_PROCESS 
def taxi_process(ident, trips, start_time=0): 
""" 每 次 状态 变化 时 向 仿真 程序 产 出 一 个 事件 """ 
time = yield Event(start_time, ident, 'leave garage') 
for i in range(trips): 
time = yield Event(time, ident, 'pick up passenger’ ) 
time = yield Event(time, ident, ‘drop off passenger’ ) 

















yield Event(time, ident, 'going home’) 
# 结束 出 租车 进程 
# END TAXI_PROCESS 




















# BEGIN TAXI_SIMULATOR 
class Simulator: 


def _ init__(self, procs_map): 
self.events = queue.PriorityQueue() 
self.procs = dict(procs_map) 


def run(self, end_time): 
""" 调 度 并 显示 事件 ， 直 到 时 间 结束 """ 
# 调度 各 辆 出 租车 的 第 一 个 事件 
for _, proc in sorted(self.procs.items()): 
first_event = next(proc) 
self.events.put(first_event) 



























































# 此 次 仿真 的 主 循环 
sim_time = 6 
while sim_time < end time : 
if self.events.empty(): 
print('*** end of events ***') 
break 





current_event = self.events.get() 
sim_time, proc_id, previous_action = current_event 
print('taxi:', proc_id, proc_id * ' ", current_event) 
active_proc = self.procs[proc_id] 
next_time = sim_time + compute_duration(previous_action) 
try: 

next_event = active_proc.send(next_time) 





except StopIteration: 
del self.procs[proc_id] 
else: 
self.events.put(next_event) 
else: 
msg = '*** end of simulation time: {} events pending ***' 
print(msg. format (self.events.qsize())) 
# END TAXI_SIMULATOR 


def compute_duration(previous_action): 
""" 使 用 指数 分 布 计算 操作 的 耗 时 """ 
if previous action in ['leave garage', 'drop off passenger']: 
# 新 状态 是 四 处 徘徊 
interval = SEARCH_DURATION 
elif previous_action == 'pick up passenger’: 
# 新 状态 是 行程 开始 
interval = TRIP_DURATION 
elif previous_action == 'going home ' : 
interval = 1 
else: 
raise ValueError('Unknown previous_action: %s' % previous_action) 
return int(random.expovariate(1/interval)) + 1 









































def main(end_time=DEFAULT_END TIME, num_taxis=DEFAULT_NUMBER_OF_TAXIS, 
seed=None): 
"" "初始 化 随机 生成 器 ， 构 建 过 程 ， 运 行 仿真 程序 """ 
if seed is not None: 
random.seed(seed) # 获得 可 复 现 的 结果 





taxis = {i: taxi_process(i, (i+1)*2, i*DEPARTURE_INTERVAL) 
for i in range(num_taxis)} 

sim = Simulator(taxis) 

sim.run(end_time) 


if _name == ' main_': 


parser = argparse.ArgumentParser( 
description='Taxi fleet simulator. ') 
parser.add_argument('-e', '--end-time', type=int, 
default=DEFAULT_END_ TIME, 
help='simulation end time; default = %s 
% DEFAULT_END_TIME) 
parser.add_argument('-t', '--taxis', type=int, 
default=DEFAULT_NUMBER_OF_TAXIS, 
help="number of taxis running; default = %s 
% DEFAULT_NUMBER_OF_TAXIS) 
parser.add_argument('-s', '--seed', type=int, default=None, 
help='random generator seed (for testing) ') 


args = parser.parse_args() 
main(args.end_time, args.taxis, args.seed) 























命令 行 中 的 运行 示例 : seed=3， 最 长 用 时 =126: : 








# BEGIN 


TAXI_SAMPLE_RUN 


$ python3 taxi_sim.py -s 3 -e 120 


taxi: @ 
taxi: 6 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
taxi: 
kK end 


NRPFNNNFPRPONNRFPODORFPRFNNDNFNNDNNNF KF 


pa 


Event(time=0, proc=0, action='leave garage') 
Event(time=2, proc=0, action='pick up passenger') 
Event(time=5, proc=1, action='leave garage') 
Event(time=8, proc=1, action='pick up passenger’ ) 
Event(time=10, proc=2, action='leave garage’) 
Event(time=15, proc=2, action='pick up passenger’ ) 
Event(time=17, proc=2, action='drop off passenger’ ) 
Event(time=18, proc=0, action='drop off passenger’ ) 
Event(time=18, proc=2, action='pick up passenger’ ) 
Event(time=25, proc=2, action='drop off passenger’ ) 
Event(time=27, proc=1, action='drop off passenger’ ) 
Event(time=27, proc=2, action='pick up passenger’ ) 
Event(time=28, proc=@, action='pick up passenger’ ) 
Event(time=40, proc=2, action='drop off passenger’ ) 
Event(time=44, proc=2, action='pick up passenger’ ) 
Event(time=55, proc=1, action='pick up passenger’ ) 
Event(time=59, proc=1, action='drop off passenger’ ) 
Event(time=65, proc=0, action='drop off passenger’ ) 
Event(time=65, proc=1, action='pick up passenger’ ) 
Event(time=65, proc=2, action='drop off passenger’ ) 
Event(time=72, proc=2, action='pick up passenger’ ) 
Event(time=76, proc=0, action='going home’) 
Event(time=80, proc=1, action='drop off passenger’ ) 
Event(time=88, proc=1, action='pick up passenger’ ) 
Event(time=95, proc=2, action='drop off passenger’ ) 
Event(time=97, proc=2, action='pick up passenger’ ) 
Event(time=98, proc=2, action='drop off passenger’ ) 
Event(time=106, proc=1, action='drop off passenger’ ) 
Event(time=109, proc=2, action='going home’) 
Event(time=110, proc=1, action='going home’) 
of events *** 


# END TAXI_SAMPLE_RUN 








A6 HITE: 加 密 示 例 
这 几 个 脚本 用 于 展示 如 何 使 用 futures .ProcessPoolExecutor 执行 CPU 密集 型 任务 。 


示例 A-7 使 用 RC4 算法 加 密 并 解密 随机 的 字 节 数组 ， 需 要 arcfour.py 模块 〈 见 示例 A-8) 
支持 才能 运行 。 














示例 A-7 arcfour futures.py: futures.ProcessPoolExecutor 用 法 示例 





import sys 

import time 

from concurrent import futures 
from random import randrange 
from arcfour import arcfour 


JOBS = 12 
SIZE = 2**18 


KEY = b"'Twas brillig, and the slithy toves\nDid gyre" 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def arcfour_test(size, key): 
in_text = bytearray(randrange(256) for i in range(size)) 
cypher_text = arcfour(key, in_text) 
out_text = arcfour(key, cypher_text) 
assert in text == out_text, ‘Failed arcfour_test' 
return size 


def main(workers=None): 
if workers: 
workers = int(workers) 
to = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor. _max_workers 
to_do = [] 
for i in range(JOBS, ©, -1): 
size = SIZE + int(SIZE / JOBS * (i - JOBS/2)) 
job = executor.submit(arcfour_test, size, KEY) 
to_do.append(job) 


for future in futures.as_completed(to_do): 
res = future.result() 
print('{:.1*} KB'.format(res/2**10) ) 


print(STATUS.format(actual_workers, time.time() - t@)) 
if _name == ' main_': 
if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 
workers = None 





main(workers) 








tT 





示例 A-8 纯粹 使 用 Python 实现 RC4 加 密 算 法 。 











tT 








示例 A-8 arcfour.py: 兼容 RC4 的 算法 











nu "兼容 RC4 的 算法 " we 





def arcfour(key, in_bytes, loops=20): 





kbox = bytearray(256) # 创建 存储 键 的 数组 

for i, car in enumerate(key): # 复制 键 和 向 时 
kbox[i] = car 

j = len(key) 

for i in range(j, 256): # 
kbox[i] = kbox[i-j] 


ji 


并 











EH FIK 





limi 


# [1] 初始 化 sbox 
sbox = bytearray(range(256) ) 





# 按照 CipherSaber-2 的 建议 ， 不 断 打 乱 sbox 
# http://ciphersaber.gurus.com/faq.html#cs2 
J 
for k in range(loops): 

for i in range(256): 
j = (j + sbox[i] + kbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 





# 主 循环 
i=@ 
j= 


out_bytes = bytearray() 


for car in in_bytes: 
i = (i + 1) % 256 
# [2] 打 乱 sbox 
j = (j + sbox[i]) % 256 
sbox[i], sbox[j] = sbox[j], sbox[i] 


# [3] 计算 t 
t = (sbox[i] + sbox[j]) % 256 
k = sbox[t] 


car = car ^k 
out_bytes.append(car) 


return out_bytes 


def test(): 
from time import time 
clear = bytearray(b'1234567890' * 100000) 
to = time() 
cipher = arcfour(b'key', clear) 
print('elapsed time: %.2fs' % (time() - t@)) 
result = arcfour(b'key', cipher) 
assert result == clear, ‘%r != %r' % (result, clear) 
print('elapsed time: %.2fs' % (time() - t@)) 
print('OK') 





if _name == ' main_': 
test() 








示例 A-9 使 用 SHA-256 散 列 算法 打 乱 字 节 数组 。 这 个 脚本 使 用 标准 库 中 的 hashlib 模块 ， 
而 这 个 模块 使 用 C 语言 编写 的 OpenSSL J. 





示例 A-9 sha futures.py: futures.ProcessPoolExecutor 用 法 示例 


import sys 

import time 

import hashlib 

from concurrent import futures 
from random import randrange 


JOBS 12 
SIZE = 2**20 
STATUS = '{} workers, elapsed time: {:.2f}s' 


def sha(size): 
data = bytearray(randrange(256) for i in range(size)) 
algo = hashlib.new('sha256' ) 
algo.update(data) 
return algo.hexdigest() 


def main(workers=None): 
if workers: 
workers = int(workers) 
to = time.time() 


with futures.ProcessPoolExecutor(workers) as executor: 
actual_workers = executor. _max_workers 
to_do = (executor.submit(sha, SIZE) for i in range(JOBS)) 
for future in futures.as_completed(to_do): 
res = future.result() 
print(res) 


print(STATUS.format(actual_workers, time.time() - t@)) 
if _name == '_main_': 
if len(sys.argv) == 2: 
workers = int(sys.argv[1]) 
else: 
workers = None 
main(workers) 








A.7 17H: flags2 系 列 HTTP 客 户 端 示 例 
17.5 节 的 flags2 系列 示例 都 使 用 了 flags2 common.py 模块 〈 见 示例 A-10) 里 的 函数 。 


示例 A-10 flags2 common.py 


























""" 为 后 续 flag 示 例 提 供 实用 函数 。 





import os 

import time 

import sys 

import string 

import argparse 

from collections import namedtuple 
from enum import Enum 


Result = namedtuple('Result', ‘status data') 


HTTPStatus = Enum('Status', ‘ok not_found error') 


POP2@_CC = ('CN IN US ID BR PK NG BD RU JP ' 
"MX PH VN ET EG DE IR TR CD FR').split() 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


SERVERS = { 
"REMOTE': ‘http://flupy.org/data/flags', 
"LOCAL': ‘http://localhost:8001/flags', 
"DELAY': ‘http://localhost:8002/flags', 
"ERROR': ‘http://localhost:8003/flags', 
} 


DEFAULT_SERVER = 'LOCAL' 


DEST_DIR = ‘downloads/' 
COUNTRY_CODES_FILE = ‘country_codes.txt' 


def save_flag(img, filename): 
path = os.path.join(DEST_DIR, filename) 
with open(path, 'wb') as fp: 
fp.write(img) 


def initial_report(cc_list, actual_req, server_label): 

if len(cc_list) <= 10: 

cc_msg = ', '.join(cc_list) 
else: 

cc_msg = ‘from {} to {}'.format(cc_list[@], cc_list[-1]) 
print('{} site: {}'.format(server_label, SERVERS[server_label])) 
msg = ‘Searching for {} flag{}: {}' 
plural = 's' if len(cc_list) != 1 else '' 
print(msg.format(len(cc_list), plural, cc_msg)) 





def 


def 


def 


plural = 's' if actual_req != 1 else 
msg = '{} concurrent connection{} will be used.' 
print(msg.format(actual_req, plural)) 


final_report(cc_list, counter, start_time): 

elapsed = time.time() - start_time 

print('-' * 20) 

msg = '{} flag{} downloaded. ' 

plural = 's' if counter[HTTPStatus.ok] != 1 else '' 

print (msg. format (counter[HTTPStatus.ok], plural)) 

if counter[HTTPStatus.not_found]: 
print(counter[HTTPStatus.not_found], ‘not found. ') 

if counter[HTTPStatus.error]: 
plural = 's' if counter[HTTPStatus.error] != 1 else 
print('{} error{}.'.format(counter[HTTPStatus.error], plural) ) 

print('Elapsed time: {:.2f}s'.format(elapsed) ) 


expand_cc_args(every_cc, all_cc, cc_args, limit): 
codes = set() 
A_Z = string.ascii_uppercase 
if every_cc: 
codes.update(a+b for a in AZ for b in AZ) 
elif all cc: 
with open(COUNTRY CODES FILE) as fp: 
text = fp.read() 
codes.update(text.split()) 
else: 
for cc in (c.upper() for c in cc_args): 
if len(cc) == 1 and cc in AZ: 
codes.update(cc+c for c in A Z) 
elif len(cc) == 2 and all(c in AZ for c in cc): 
codes.add(cc) 
else: 
msg = ‘each CC argument must be A to Z or AA to ZZ.' 
raise ValueError('*** Usage error: '+msg) 
return sorted(codes)[:limit] 


process_args(default_concur_req): 
server_options = ', '.join(sorted(SERVERS) ) 
parser = argparse.ArgumentParser( 
description='Download flags for country codes. 
"Default: top 20 countries by population.') 
parser.add_argument('cc', metavar='CC', nargs='*', 
help='country code or 1st letter (eg. B for BA...BZ)') 
parser.add_argument('-a', '--all', action='store_true', 
help='get all available flags (AD to ZW)') 
parser.add_argument('-e', '--every', action='store_true', 
help='get flags for every possible code (AA...ZZ)') 
parser.add_argument('-1', '--limit', metavar='N', type=int, 
help='limit to N first codes', default=sys.maxsize) 
parser.add_argument('-m', '--max_req', metavar='CONCURRENT', type=int, 
default=default_concur_req, 
help='maximum concurrent requests (default={})' 
. Format (default_concur_req) ) 
parser.add_argument('-s', '--server', metavar="LABEL', 
default=DEFAULT_SERVER, 





help='Server to hit; one of {} (default={})' 
.format(server_options, DEFAULT_SERVER) ) 
parser.add_argument('-v', '--verbose', action='store_true', 
help='output detailed progress info’) 
args = parser.parse_args() 
if args.max_req < 1: 
print('*** Usage error: --max_req CONCURRENT must be >= 1') 
parser.print_usage() 
sys.exit(1) 
if args.limit < 1: 
print('*** Usage error: --limit N must be >= 1') 
parser.print_usage() 
sys.exit(1) 
args.server = args.server.upper() 
if args.server not in SERVERS: 
print('*** Usage error: --server LABEL must be one of', 
server_options) 
parser.print_usage() 
sys.exit(1) 
try: 
cc_list = expand_cc_args(args.every, args.all, args.cc, args.limit) 
except ValueError as exc: 
print(exc.args[@]) 
parser.print_usage() 
sys.exit(1) 
if not cc_list: 
cc_list = sorted(POP2@_CC) 
return args, cc_list 


def main(download_many, default_concur_req, max_concur_req): 
args, cc_list = process_args(default_concur_req) 
actual_req = min(args.max_req, max_concur_req, len(cc_list)) 
initial_report(cc_list, actual_req, args.server) 
base_url = SERVERS[args.server] 
to = time.time() 
counter = download_many(cc_list, base_url, args.verbose, actual_req) 
assert sum(counter.values()) == len(cc_list), \ 
"some downloads are unaccounted for' 
final_report(cc_list, counter, t@) 











flags2_sequential.py 脚本 〈 见 示例 A-11) 是 对 比 两 种 并 发 实现 的 基准 。flags2_threadpool.py 
FAAS (OLAS BI 17-14) 还 使 用 了 flags2_sequential.py 脚本 中 的 get_flag 和 download_one 


两 个 函数 。 


示例 A-11 flags2 sequential.py 























""" 下 载 多 个 国家 的 国旗 〈 包 含 错误 处 理 代码 ) 。 

















依 序 下 载 版 
运行 示例 :: 


$ python3 flags2 sequential.py -s DELAY b 
DELAY site: http://localhost:8002/flags 
Searching for 26 flags: from BA to BZ 

1 concurrent connection will be used. 





17 flags downloaded. 
9 not found. 
Elapsed time: 13.36s 


import collections 


import requests 
import tqdm 


from flags2_common import main, save flag, HTTPStatus, Result 


DEFAULT_CONCUR_REQ = 1 
MAX_CONCUR_REQ = 1 


# BEGIN FLAGS2_BASIC_HTTP_FUNCTIONS 

def get_flag(base_url, cc): 
url = '{}/{cc}/{cc}.gif'.format(base_url, cc=cc.lower()) 
resp = requests.get(url) 


if resp.status_code != 200: 
resp.raise_for_status() 
return resp.content 


def download_one(cc, base_url, verbose=False): 
try: 
image = get_flag(base_url, cc) 
except requests.exceptions.HTTPError as exc: 
res = exc.response 


if res.status_code == 404: 
status = HTTPStatus.not_found 
msg = ‘not found' 

else: 
raise 


else: 
save_flag(image, cc.lower() + '.gif') 
status = HTTPStatus.ok 
msg = 'OK' 


if verbose: 
print(cc, msg) 


return Result(status, cc) 
# END FLAGS2_BASIC_HTTP_FUNCTIONS 


# BEGIN FLAGS2_DOWNLOAD_MANY_SEQUENTIAL 
def download_many(cc_list, base_url, verbose, max_req): 
counter = collections.Counter() 
cc_iter = sorted(cc_list) 
if not verbose: 
cc_iter = tqdm.tqdm(cc_iter) 
for cc in cc_iter: 
try: 
res = download_one(cc, base_url, verbose) 
except requests.exceptions.HTTPError as exc: 
error_msg = ‘HTTP error {res.status_code} - {res.reason}' 





error_msg = error_msg.format(res=exc.response) 
except requests.exceptions.ConnectionError as exc: 
error_msg = ‘Connection error’ 
else: 
error_msg = 
status = res.status 


if error_msg: 
status = HTTPStatus.error 
counter[status] += 1 
if verbose and error_msg: 
print('*** Error for {}: {}'.format(cc, error msg)) 


return counter 
# END FLAGS2_DOWNLOAD_MANY_SEQUENTIAL 


if _name == ' main_': 
main(download_many, DEFAULT CONCUR REQ, MAX_CONCUR_REQ) 








AS 81922; 处 理 OSCON 日 程 表 的 脚本 和 测试 


示例 A-12 是 schedulel.py 模块 (示例 19-9) 的 测试 脚本 ， 使 用 py. test 库 和 测试 运行 程 
序 实现 。 


示例 A-12  test_schedulel.py 





import shelve 
import pytest 


import schedule1 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule. load_db(the_db) 
yield the_db 


def test_record_class(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db['speaker.3471' ] 
assert speaker.name == ‘Anna Martelli Ravenscroft’ 


def test_event_record(db): 
event = db[ 'event.33950'] 
assert event.name == 'There *Will* Be Bugs’ 


def test_event_venue(db): 
event = db['event.33950'] 
assert event.venue_serial == 1449 








19.1.5 节 分 四 部 分 列 出 了 schedule2.py 脚本 里 的 代码 ， 示 例 A-13 是 完整 的 代码 清单 。 


示例 A-13 schedule2.py 





schedule2.py: 遍历 0SCON 的 日 程 数据 








>>> import shelve 
>>> db = shelve.open(DB_NAME) 
>>> if CONFERENCE not in db: load_db(db) 


# BEGIN SCHEDULE2_DEMO 


>>> DbRecord.set_db(db) 
>>> event = DbRecord.fetch('event.33950' ) 
>>> event 
<Event 'There *Will* Be Bugs'> 
>>> event. venue 
<DbRecord serial='venue.1449'> 
>>> event. venue.name 
"Portland 251' 
>>> for spkr in event.speakers: 
print('{@.serial}: {@.name}'.format(spkr) ) 


speaker.3471: Anna Martelli Ravenscroft 
speaker.5199: Alex Martelli 


# END SCHEDULE2_DEMO 


>>> db.close() 


# BEGIN SCHEDULE2_RECORD 
import warnings 
import inspect 


import osconfeed 


DB_NAME = ‘data/schedule2_db' 
CONFERENCE = ‘conference.115' 


class Record: 
def _ init__(self, **kwargs): 
self. dict__.update(kwargs) 


def _eq_ (self, other): 
if isinstance(other, Record): 
return self. dict__ == other. dict__ 
else: 
return NotImplemented 
# END SCHEDULE2_RECORD 


# BEGIN SCHEDULE2_DBRECORD 
class MissingDatabaseError(RuntimeError): 
"""Raised when a database is required but was not set. 


class DbRecord(Record): 
__db = None 


@staticmethod 
def set_db(db): 





DbRecord. db= db 


@staticmethod 
def get db(): 
return DbRecord. db 


@classmethod 
def fetch(cls, ident): 
db = cls.get_db() 
try: 
return db[ident] 
except TypeError: 
if db is None: 
msg = "database not set; call '{}.set_db(my_db)'" 
raise MissingDatabaseError(msg.format(cls.__name_)) 
else: 
raise 


def _repr_ (self): 
if hasattr(self, 'serial'): 
cls name = self. class .name _ 
return '<{} serial={!r}>'.format(cls_name, self.serial) 
else: 
return super().__repr__() 
# END SCHEDULE2_DBRECORD 


# BEGIN SCHEDULE2_EVENT 
class Event(DbRecord): 


@property 
def venue(self): 
key = ‘venue.{}'.format(self.venue_serial) 


return self. class .fetch(key) 


@property 
def speakers(self): 
if not hasattr(self, '_speaker_objs'): 
spkr_serials = self. dict__['speakers'] 
fetch = self. class .fetch 
self. speaker objs = [fetch('speaker.{}'.format(key)) 
for key in spkr_serials] 
return self. speaker objs 


def _repr_ (self): 
if hasattr(self, 'name'): 
cls_name = self. class .name _ 
return '<{} {!r}>'.format(cls_name, self.name) 
else: 
return super()._ repr _() 
# END SCHEDULE2_EVENT 


# BEGIN SCHEDULE2_LOAD 
def load_db(db): 
raw_data = osconfeed.load() 
warnings.warn('loading ' + DB_NAME) 
for collection, rec_list in raw_data['Schedule'].items(): 
record_type = collection[:-1] 





cls_name = record_type.capitalize() 

cls = globals().get(cls_name, DbRecord) 

if inspect.isclass(cls) and issubclass(cls, DbRecord): 
factory = cls 

else: 
factory = DbRecord 

for record in rec_list: 
key = '{}.{}'.format(record_type, record['serial']) 
record[ 'serial'] = key 
db[key] = factory(**record) 

# END SCHEDULE2_LOAD 








示例 A-14 使 用 py. test 测试 示例 A-13. 


示例 A-14 test_schedule2.py 





import shelve 
import pytest 


import schedule2 as schedule 


@pytest.yield_fixture 
def db(): 
with shelve.open(schedule.DB_NAME) as the_db: 
if schedule.CONFERENCE not in the_db: 
schedule. load_db(the_db) 
yield the_db 


def test_record_attr_access(): 
rec = schedule.Record(spam=99, eggs=12) 
assert rec.spam == 99 
assert rec.eggs == 12 


def test_record_repr(): 
rec = schedule.DbRecord(spam=99, eggs=12) 
assert 'DbRecord object at @x' in repr(rec) 
rec2 = schedule.DbRecord(serial=13) 
assert repr(rec2) == "<DbRecord serial=13>" 


def test_conference_record(db): 
assert schedule.CONFERENCE in db 


def test_speaker_record(db): 
speaker = db['speaker.3471' ] 
assert speaker.name == ‘Anna Martelli Ravenscroft 


def test_missing db_exception(): 
with pytest.raises(schedule.MissingDatabaseError) : 
schedule. DbRecord.fetch('venue.1585' ) 





def test_dbrecord(db): 
schedule.DbRecord.set_db(db) 
venue = schedule.DbRecord.fetch('venue.1585' ) 
assert venue.name == ‘Exhibit Hall B' 


def test_event_record(db): 
event = db[ 'event.33950'] 
assert repr(event) == "<Event 'There *Will* Be Bugs'>" 


def test_event_venue(db): 
schedule.Event.set_db(db) 
event = db['event.33950'] 


assert event.venue_serial == 1449 
assert event.venue == db['venue.1449' ] 
assert event.venue.name == ‘Portland 251' 


def test_event_speakers(db): 
schedule.Event.set_db(db) 
event = db[ 'event.33950'] 


assert len(event.speakers) == 2 
anna_and_alex = [db['speaker.3471'], db['speaker.5199']] 
assert event.speakers == anna_and_alex 


def test_event_no_speakers(db): 
schedule.Event.set_db(db) 
event = db['event.36848' ] 
assert len(event.speakers) == 








Python 术语 表 


Sy 这 里 列 出 的 很 多 术语 不 是 Python 专用 的 ， 不 过 某 些 术语 的 定义 对 Python 社区 有 特 
殊 的 意义 。 


此 外 ， 也 可 以 参阅 官方 的 Python 词汇 表 Chttps://docs.python.org/3/glossary.html) 。 





ABC 编程 语言 


Leo Geurts, Lambert Meertens 和 Steven Pemberton 创造 的 一 门 编程 语言 。20 世纪 80 
年 代 ，Python 之 父 Guido vanRossum 是 实现 ABC 环境 的 程序 员 。Python 的 一 些 特色 出 自 
ABC， 例 如 使 用 缩 进 划分 坎 、 内 置 元 组 和 字典 、 元 组 拆 包 、for 循环 的 语义 ， 以 及 对 所 有 
序列 类 型 的 统一 处 理 方 式 。 


BDFL 




















Benevolent Dictator For Life 的 简称 ， 意 为 “仁慈 的 独裁 者 "”， 指 代 Python 之 父 Guido 
van Rossum. 


BOM 








Byte Order Mark 的 简称 ， 意 为 “ 字 节 序 标记 ”， 指 可 能 出 现在 UTF-16 编码 文件 开头 的 
字 节 序列 。BOM 是 U+FEFF 字符 〈 零 宽 不 换行 空格 ) ， 在 大 字 节 序 的 CPU 中 ， 编 码 成 
b'\xfe\xff'; 在 小 字 节 序 的 CPU 中 ， 编 码 成 b'\xff\xfe'。 因 为 Unicode 中 没有 
U+FFFE 字符 ， 所 以 这 些 字 节 的 作用 只 有 一 个 一 一 表示 编码 方式 使 用 的 字 节 序 。 虽 然 多 
余 ， 但 是 在 UTF-8 文件 中 可 能 会 找到 编码 成 b'\xef\xbb\xbf' 的 BOM. 











CPython 


标准 的 Python 解释 器 ， 使 用 C 语言 实现 。 讨 论 不 同 实现 特有 的 行为 ， 以 及 多 个 可 用 
的 Python 解释 器 (如 PyPy〉 时 才 会 使 用 这 个 术语 。 


CRUD 


~ Read, Update, Delete 的 首 字母 缩写 ， 这 是 存储 记录 的 应 用 程序 中 的 四 种 基 
操作 。 


doctest 


一 个 模块 ， 其 中 的 函数 能 解析 并 运行 Python 模块 或 纯 文 本 文件 的 文档 字符 串 中 内 插 
的 示例 。 也 可 以 在 命令 行 中 使 用 ， 如 下 所 示 : 























python -m doctest 
module with tests.py 








DRY 


Don't Repeat Yourself (FHA RHE) 的 缩写 ， 一 种 软件 工程 原则 ， 意 思 是 :“ 系 统 
中 的 每 一 项 知识 都 必须 具有 单一 、 无 歧义 、 权 威 的 表示 。” 首 先 由 Andy Hunt 与 Dave 
Thomas 的 《程序 员 修 炼 之 道 : 从 小 工 到 专家 》 一 书 提出 。 























dunder 


首尾 有 两 条 下 划 线 的 特殊 方法 和 属性 的 简洁 读 法 〈 即 把 len “dunder 


len”) 。 




















dunder 方法 








参见 dunder 和 特殊 方法 词 条 。 


EAFP 





“it's easier to ask forgiveness than permission” (取得 原谅 比 获得 许可 容易 ) 的 首 字母 缩 
写 。 人 们 认为 这 句 话 是 计算 机 先驱 Grace Hopper WAJ, Python 程序 员 使 用 这 个 缩写 指 代 
一 种 动态 编程 方式 ， 例 如 访问 属性 前 不 测试 有 没有 属性 ， 如 果 没 有 就 捕获 异常 。 
hasattr 函数 的 文档 字符 串 是 这 样 描述 它 的 工作 方式 的 :“ 调 用 getattr(object, 
name)， 然 后 捕获 AttributeError 异常 。” 


















































genexp 
generator expression〈 生 成 器 表达 式 ) 的 简称 

GoF 书 
指 代 《设计 模式 ， 可 复 用 面向 对 象 软件 的 基础 》 一 书 ， 作 者 是 四 个 人 ， 被 称 为 “四 人 


组 ”(Gang of Four，GoF) ， 包 括 Erich Gamma, Richard Helm, Ralph Johnson 和 John 
Vlissides。 

















KISS 原则 


























KISS 是 “Keep It Simple, Stupid” 的 首 字母 缩写 。 这 个 原则 要 求 尽 量 寻 找 最 简单 的 方 
案 ， 尺 量 减 少 可 变 部 分 。 这 个 警句 是 Kelly Johnson 首创 的 。Kelly 是 一 位 多 才 多 艺 的 航空 
工程 师 ， 在 真实 存在 的 51 区 工作 ， 设 计 出 了 20 世纪 最 先进 的 几 架 航天 飞机 。 














listcomp 
list comprehension( 列 表 推 导 ) 的 简称 。 
ORM 
Object-Relational Mapper (对象 关系 映射 器 〉 的 缩写 ， 通 过 这 种 API 可 以 使 用 Python 


类 和 对 象 访问 数据 库 中 的 表 和 记录 ， 而 且 调用 方法 可 以 执行 数据 库 操作 。SQLAlchemy 是 
流行 的 独立 Python ORM, Django 和 Web2py 自 带 了 ORM. 

















PyPI 


Python 包 索 引 Chttps://pypi.python.org/) ， 里 面 有 超过 60 000 个 包 可 用 。 也 叫 奶 栈 店 
(参见 奶 酷 店 词 条 ) 。 为 了 防止 与 PyPy 混淆 ，PyPI 应 该 读 作 “pie-P-eye”。 


PyPy 


Python 编程 语言 的 男 一 种 实现 ， 使 用 一 个 工具 链 把 部 分 Python 编译 成 机 器 码 ， 因 此 
解释 器 的 源码 其 实 是 使 用 Python 编写 的 。PyPy 还 提供 了 JIT， 即 时 把 用 户 的 程序 编译 成 机 
器 码 一 一 与 Java VM 的 作用 相同 。 根 据 PyPy 公布 的 基准 测试 (http://speed.pypy.org/)， 

从 2014 年 11 月 起 ，PyPy 平均 比 CPython 快 6.8 倍 。 为 了 防止 与 PyPI 混淆 ，PyPy 应 该 读 
作 “pie-pie”。 


























Pythonic 


用 于 赞扬 符 
d 通常 





合 Python x 风格 的 代码 ， 即 充分 利用 Python 语言 的 特性 ， 写 出 简洁 明了 、 
运行 速度 也 快 的 代码 。 还 指 API 符 合 Python 高 手 的 编程 方式 。 参 见 惯用 











句法 词 条 
Python 之 禅 

从 Python 2.2 起 ， 在 Python 控制 台中 输入 import this 后 看 到 的 输出 。 
REPL 


read-eval-print loop〈 读 取 一 求 值 一 输出 循环 ) 的 简称 ， 一 种 交互 式 控制 台 ， 如 标准 
的 python 或 非 主流 的 ipython 和 bpython， 以 及 Python Anywhere. 


YAGNI 





You Ain't Gonna Need It (你 不 需要 这 个 ) 的 首 字母 缩写 ， 这 个 口号 的 意思 是 ， 根 据 对 
未 来 需求 的 预测 ， 不 要 实现 非 立 即 需要 的 功能 


绑 定 方法 (bound method) 


























通过 实例 访问 的 方法 会 绑 定 到 那个 实例 上 。 方 法 其 实 是 描述 符 ， 访 问 方 法 时 ， 会 返回 
一 个 包装 自身 的 对 象 ， 把 方法 绑 定 到 实例 上 。 那 个 对 象 就 是 绑 定 方法 。 调 用 绑 定 方法 时 ， 
可 以 不 传 入 self 的 值 。 例 如 ， 像 my_method = my_obj.method 这 样 赋值 之 后 ， 可 以 通 
过 my_method() 调用 绑 定 方法 。 请 与 非 绑 定 方法 相 比较 。 
编码 解码 器 (codec ) 


(编码 器 / 解码 器 ) 提供 编码 和 解码 函数 的 模块 ， 通 常 在 str 和 bytes 之 间 转 换 ， 
不 过 Python 也 提供 了 在 bytes 和 bytes, UK str 和 str 之 间 转 换 的 编码 解码 器 。 


变 值 方法 (mutator) 
参见 存 取 方法 词 条 。 















































别名 aliasing ) 
为 同一 个 对 象 指定 两 个 或 多 个 名 称 。 例 如 ,在 a = []; b = a 中 ,a 和 b 是 别名 ， 
指 癌 同一 个 列表 对 象 。 对 村 把 对 象 引用 存储 在 变量 中 的 语言 来 说 ， 别 名 无 处 不 在 。 为 了 避 


a 要 据 弃 这 种 想法 : Ae ie RAN CLR SEI — PSO RRA EE TB 
。 我 们 要 把 变量 看 做 对 象 的 标注 〈 一 个 对 象 可 以 有 多 个 标注 ) 。 


并 行 赋值 (parallel assignment) 


使 用 类 Ge EE eee 
叫 解构 赋值 。 这 是 元 组 拆 包 的 常见 用 途 


抽象 基 类 (abstract base class, ABC) 



























































无 法 实例 化 ， 只 能 扩展 的 类 。Python 通过 ABC 实现 接口 。 除 了 继承 ABC 之 外 ， 类 还 
可 以 注册 成 为 ABC 的 虚拟 子 类 ， 声 明 自 己 实 现 了 接口 。 


初始 化 方法 〈initializer) 


”init ”方法 更 贴切 的 名 称 〈 取 代 构 造 方法 ) 。 init _ 方法 的 任务 是 初始 化 通 
过 self 参数 传 入 的 实例 。 实 例 其 实 是 由 new ”方法 构建 的 。 参 见 构造 方法 词 条 。 


储存 属性 (storage attribute ) 
托管 实例 中 的 属性 ， 用 于 存储 由 描述 符 管理 的 属性 的 值 。 男 见 托管 属性 词 条 
存 取 方 法 (accessor) 


用 于 存 取 eae 有 些 作 者 把 存 取 方法 当 作 通 用 术语 使 用 ， 包 括 读 值 
方法 和 设 值 方法 ， 另 一 些 作者 则 用 存 取 方 法 指 代 读 值 方法 ， 而 用 变 值 方法 指 代 设 值 方法 。 


代码 异味 (code smell) 


一 种 代码 形式 ， 表 明 程 序 的 设计 可 能 有 问题 。 例 如 ， 过 度 使 用 isinstance 检查 具体 
的 类 是 一 种 代码 异味 ， 因 为 这 样 会 导致 程序 以 后 难以 扩展 ， 无 法 处 理 新 类 型 。 


单 例 (singleton) 

一 个 类 唯一 存在 的 实例 一 一 这 通常 不 是 巧合 ， 而 是 故意 为 之 ， 防 止 类 创建 多 个 实例 。 
有 一 种 设计 模式 就 叫 单 例 模式 ， 指 明 如 何 编写 这 样 的 类 。 在 Python 中 ，None 对 象 是 单 
例 。 
导入 时 (import time ) 


Python 解释 器 加 载 模块 ， 从 上 到 下 计算 ， 把 里 面 的 代码 编译 成 字 节 码 之 后 ， 开 始 执行 
模块 的 那 一 刻 。 类 和 函数 在 此 时 定义 ， 变 成 真实 存在 的 对 象 。 装 饰 器 也 在 此 时 执行 。 


迭代 器 (iterator) 








































































































































































































实现 了 无 参数 方法 __next__ 的 对 象 ， 这 个 方法 返回 级 数 里 的 下 一 个 元 素 ， 如 果 没 有 
元 素 了 就 抛 出 StopIteration 异常 。 在 Python 中 ， 迭 代 器 还 实现 了 iter 方法 ， 
此 和 迭代 器 也 是 可 友 代 的 对 象 。 根 据 最 初 的 设计 模式 ， 经 典 欠 代 器 返回 集合 里 的 元 素 。 生 
成 器 也 是 迭代 器 ， 不 过 更 灵活 。 参 见 生成 器 词 条 。 


惰性 求 值 (lazy) 
P 指 可 迭代 的 对 象 按 需 生 成 元 素 。 在 Python 中 ， 生 成 器 会 惰性 求 值 。 请 与 及 早 求 值 相 
比较 。 
































二 进 制 序列 (binary sequence ) 
一 个 通用 术语 ， 表 示 元 素 是 二 进 制 数据 的 序列 类 型 。 内 置 的 二 进 制 序列 类 型 有 


byte、bytearray 和 memoryview。 

















72 pki Bl (generic function) 


以 不 同 的 方式 为 不 同类 型 的 对 象 实现 相同 操作 的 一 组 函数 。 从 Python 3.4 起 ， 创 建 泛 
函数 的 标准 方式 是 使 用 functools.singledispatch 装饰 器 。 在 其 他 语言 中 ， 这 叫 多 分 
派 方法 。 











JER EDIE (unbound method) 


直接 通过 类 访问 的 实例 方法 没有 绑 定 到 特定 的 实例 上 ， 因 此 把 这 种 方法 称 为 " 非 绑 定 
方法 ”。 知 想 成 功 调用 非 绑 定 方法 ， 必 须 显 式 传 入 类 的 实例 作为 第 一 个 参数 。 那 个 实例 会 
赋值 给 方法 的 self 参数。 参见 绑 定 方法 词 条 。 





















































非 履 盖 型 描述 符 (nonoverriding descriptor) 

未 实现 set _ ”方法 的 描述 符 ， 不 干涉 托管 实例 中 托管 属性 的 设置 。 因 此 ， 托 管 
实例 中 的 同名 属性 会 遮盖 实例 中 的 描述 符 。 也 叫 非 数据 描述 符 或 候 盖 型 描述 符 。 请 与 履 
盖 型 描述 符 相 比较 。 
覆盖 型 描述 符 (overriding descriptor) 


实现 了 set ”方法 的 描述 符 ， 设置 托管 实例 中 的 托 营 属性 时 会 UIRA mth 
关 操 作 。 也 叫 数据 描述 符 或 强制 描述 符 。 请 与 非 覆 盖 型 描述 符 相 比较 。 


高 阶 函 数 〈higherorder function) 


以 其 他 函数 为 参数 的 函数 ， 例 如 sorted. map 和 filter; 或 者 ， 返 回 值 为 函数 的 函 
数 ， 例 如 Python 中 的 装饰 器 。 








































































































































































































构造 方法 (constructor) 


类 的 _init_ 实例 方法 称 为 类 的 构造 方法 ， 因 为 这 个 方法 的 语义 类 似 于 Java 中 的 
构造 方法 。 然 而 ， 这 样 称呼 并 不 规范 ， ”init 更 应 该 称 为 初始 化 方法 ， 因 为 它 并 不 会 




















构建 实例 ， 而 是 把 实例 传 给 self BM. Python Æ init ”方法 之 前 调用 的 _new_ __ 
类 方法 更 合乎 构造 方法 这 个 术语 ，_new ”方法 才 会 创建 实例 并 将 其 返回 。 参 见 初始 化 
方法 词 条 。 
惯用 句法 (idiom) 

根据 普林斯顿 大 学 WordNet 字典 的 定义 ， 惯 用 句法 指 “ 说 母语 的 人 说 话 的 方式 ”。 
函数 (function) 


严格 来 说 ， 是 指 def 块 或 lambda 表达 式 计 算得 到 的 对 象 。 通 常 ， 函 数 这 个 词 用 于 
表示 任何 可 调用 的 对 象 ， 例 如 方法 ， 有 时 甚至 表示 类 。 官 方 文档 中 的 内 置 函数 列表 
Chttp://docs.python.org/library/functions.html) 列 出 了 几 个 内 置 的 类 ， 例 如 dict. range 和 
str。 另 见 可 调用 的 对 象 词 条 。 


猴子 补丁 (monkey patching) 

在 运行 时 动态 修改 模块 、 类 或 函数 ， 通 常 是 添加 功能 或 修正 缺陷 。 猴 子 补丁 在 内 存 中 
发 挥 作用 ， 不 会 修改 源码 ， 因 此 只 对 当前 运行 的 程序 实例 有 效 。 因 为 猴子 补丁 破坏 了 封 
装 ， 而 且 容 易 导 致 程 序 与 补丁 代码 的 实现 细节 紧密 耦合 ， 所 以 被 视 为 临时 的 变通 方案 ， 不 
是 集成 代码 的 推荐 方式 。 
混入 方法 (mixin method) 


抽象 基 类 或 混入 类 中 方法 的 具体 实现 。 

































































混入 类 (mixin class) 


用 于 随 着 多 重 继承 类 树 中 的 一 个 或 多 个 类 一 起 扩展 的 类 。 混 入 类 绝 不 能 实例 化 ， 它 的 
具体 子 类 也 应 该 是 其 他 非 混入 类 的 子 类 。 


活性 (iveness) 

异步 系统 、 线 程 系统 或 分 布 式 系统 在 “期 待 的 事情 终于 发 生 ”( 即 虽然 期 待 的 计算 不 会 
立即 发 生 ， 但 最 终 会 完成 ) 时 展现 出 来 的 特性 叫 活性 。 如 果 系 统 死 锁 了 ， 活 性 也 就 没有 
Je 
及 早 求 值 (eager) 


指 可 迭代 对 象 一 次 构建 好 全 部 元 素 。 在 Python 中 ， 列 表 推 导 会 及 早 求 值 。 请 与 惰性 
求 值 相 比较 。 


集合 (collection) 
泛 指 由 元 素 组 成 ， 可 以 单独 访问 各 个 元 素 的 数据 结构 。 有 些 集合 可 以 包含 任意 类 型 的 


对 象 〈 参 见 容器 词 条 ) ， 有 些 则 只 能 包含 一 种 原子 类 型 的 对 象 〈 参 见 平坦 序列 词 
&) o list 和 bytes 都 是 集合 ， 只 不 过 list 是 容器 ， 而 bytes 是 平坦 序列 。 












































假 值 (falsy) 


只 要 bool(x) 返回 False, x 就 是 假 值 。 需 要 布尔 值 时 ，Python 会 隐 式 使 用 bool it 
算 对 象 例如 控制 if 和 while 循环 的 表达 式 。 与 此 相对 的 是 真 值 (truthy) 。 


尽早 失败 (fail-fast) 


一 种 系统 设计 方式 ， 建 议 应 该 尽早 报告 错误 。Python 比 其 他 大 多 数 动 态 编程 语言 更 遵 
守 这 一 原则 。 例 如 ，Python 中 没有 “未 定义 ”的 值 : 在 初始 化 之 前 引用 变量 会 报错 ; 如果 k 
不 存在 ，my_dict[k] Eht E (JavaScript 则 不 然 )。 还 有 一 例 : 在 Python 中 通过 元 
组 拆 包 做 并 行 赋值 ， 必 须 显 式 处 理 元 组 的 每 一 个 元 素 才 行 ， 而 在 Ruby H, WR = 两 边 的 
元 素数 量 不 一 致 ， 右 边 未 用 到 的 元 素 会 被 忽略 ， 或 者 把 nil 赋 给 左边 多 余 的 变量 。 


可 迭代 的 〈iterable ) 


使 用 内 置 的 iter 函数 可 以 从 中 获得 迭代 器 的 对 象 。 可 迭代 的 对 象 为 for 循环 、 列 表 
推导 和 元 组 拆 包 提供 元 素 。 如 果 对 象 的 _ iter ”方法 能 返回 迭代 器 ， 这 就 是 可 迭代 的 
ee 序列 都 是 可 迭代 的 对 象 此 外 ， 实 现 ”getitem ”方法 的 对 象 也 是 可 迭代 的 对 





































































































可 和 迭代 对 象 的 拆 包 Citerable unpacking) 

元 组 拆 包 更 现代 、 更 精确 的 同义词 。 另 见 并 行 赋值 词 条 。 
可 散 列 的 (hashable) 

在 散 列 值 永 不 改变 ， 而 且 如 果 a == b， iG hash(a) == hash(b) 也 是 True 的 情 
况 下 ， 如 果 对 象 既 有 __hash_ 方法 ， 也 有 方法 ， 那 么 这 样 的 对 象 称 为 可 散 列 的 
对 象 。 在 内 置 的 类 型 中 ， 大 多 到 不 可 变 的 类 型 部 是 可 数列 的 ， 但 是 ， 仅 当 元 组 的 每 一 个 元 
素 都 是 可 散 列 的 时 ， 元 组 才 是 可 散 列 的 。 

可 调用 的 对 象 (callable object) 
可 以 使 用 调用 运算 符 O 调用 ， 能 返回 结果 或 执行 某 项 操作 的 对 象 。 在 Python 中 ， 可 


调用 的 对 象 有 七 种 : 用 户 定义 的 函数 、 内 置 的 函数 、 内 置 的 方法 、 实 例 方 法 、 生 成 器 函 
数 、 类 ， 还 有 实现 特殊 方法 call _ 的 类 的 实例 。 



























































类 (class) 


定义 新 类 型 的 程序 结构 ， 里 面 有 数据 属性 ， 以 及 用 于 操作 数据 属性 的 方法 。 参 见 类 
型 词 条 。 


类 型 (type) 
程序 中 的 各 种 数据 ， 限 定 可 取 的 值 和 可 对 数据 做 的 操作 。 有 些 Python 类 型 近似 于 机 


器 数据 类 型 〈 例 如 Float 和 bytes) ， 而 另 一 些 则 是 机 器 数据 类 型 的 扩展 〈 例 如 ，int 
AN CPU 字 长 的 限制 ，str 包含 多 字 节 Unicode 数据 码 位 ) 和 特别 高 层 的 抽象 〈 例 如 
































dict. deque, FF) 。 类 型 分 为 两 类 : 用 户 定 义 的 类 型 和 解释 器 内 置 的 类 型 。 在 
Python 2.2 统一 类 型 和 类 之 前 ， 类 型 和 类 是 不 同 的 实体 ， 用 户 定 义 的 类 不 能 扩展 内 置 的 类 
型 。 而 在 那 之 后 ， 内 置 的 类 型 和 新 式 类 兼容 了 ， 类 是 type 的 实例 。 在 Python 3 中 ， 所 有 


类 都 是 新 式 类 。 参 见 类 和 元 类 词 条 。 
列表 推导 (list comprehension) 


放 在 方 括号 里 的 表达 式 ， 使 用 关键 字 for 和 in， 通 过 处 理 和 过 滤 一 个 或 多 个 可 迭代 
对 象 里 的 元 素 构建 列表 。 列 表 推 导 会 及 早 求 值 。 参 见 及 早 求 值 词 条 。 


码 位 (code point) 


介 于 0~0x10FFFF 之 间 的 整数 ， 用 于 标识 Unicode 字符 数据 库 中 的 字符 。 截 至 
Unicode 7.0， 所 有 码 位 中 只 有 不 到 3% 指定 了 字符 。 在 Python 文档 中 ， 这 个 术语 可 能 拼 成 
一 个 词 ， 也 可 能 拼 成 两 个 词 。 例 如 ， 在 Python 标准 库 参 考 手 册 的 “2. Built-in Functions” 一 
章 (http://docs.python.org/library/functions.html) F, W char 函数 的 参数 是 一 个 整数 “ 码 
位 ”(codepoint) ， 却 说 作用 相反 的 ord 函数 返回 一 个 “Unicode 码 位 ”(Unicode code 
point) 。 






































描述 符 (descriptor) 








一 个 类 , 实现 ”get 、 set 和 ”delete _ 特殊 方法 中 的 一 个 或 多 个 ， 其 实 
例 作为 男 一 个 类 托管 类 ) 的 类 属性 。 质 述 符 管理 托管 类 中 托管 属性 的 存 取 和 删除 ， 数 
据 通常 存储 在 托管 实例 中 。 

名 称 改写 (name mangling) 


Python 解释 器 在 运行 时 自动 把 私有 属性 x 重合 名 为 _MyClass x. 







































































魔术 方法 (magic method) 
同 特殊 方法 。 
奶酪 店 (Cheese Shop) 





Python 包 索 引 (Python Package Index, PyPI, https://pypi.python.org/pypi) 原来 的 名 
称 ， 以 “ 巨 蟒 剧 团 " 表 演 的 幽默 短 剧 《 奶 酷 店 》 命 名 。 虽 然 是 奶 酷 店 ， 但 是 店 里 却 什么 奶 栈 
都 没有 。 写 作 本 书 时 ，https:Wcheeseshop.python.org 这 个 别名 链接 还 有 效 。 参 见 PyPI 词 
Z. 
ZR o 









































内 置 函 数 (built-in function, BIF) 


随 Python 解释 器 一 起 提供 的 函数 ， 使 用 底层 实现 语言 (也 就 是 说 ，CPython 用 C 语 
言 ，Jython 用 Java， 以 此 类 推 ) 编写 。 这 个 术语 通常 指 代 无 需 导 入 就 能 使 用 的 函数 ， 参 
JL Python 标准 库 参 考 手册 中 的 “2. Built-in Functions” 一 章 
(http://docs.python.org/library/functions.html〉》。 不 过 ， 内 置 的 模块 (如 sys. math, re 
等 ) 也 包含 内 置 函数 。 














平坦 序列 (flat sequence) 


这 种 序列 类 型 存储 的 是 元 素 的 值 本 身 ， 而 不 是 其 他 对 象 的 引用 。 内 置 的 类 型 中 ， 
str. bytes, bytearray. memoryview 和 array.array 是 平坦 序列 ; 而 list. tuple 
和 collections.deque 是 容器 序列 。 参 见 容器 词 条 。 











浅 复 制 (shallow copy) 
一 种 对 象 副 本 ， 引 用 源 对 象 的 全 部 属性 对 象 。 请 与 深 复制 相 比 较 。 另 见 别名 词 条 。 


























wu 
Fat 





虽 引 用 (strong reference ) 
让 对 象 始终 存在 于 Python 中 的 引用 。 请 与 弱 引 用 相 比 较 。 
切片 (slicing ) 
使 用 切片 表示 法 生成 序列 的 子 集 ， 例 如 my_sequence[2:6]。 切 片 经 常 复制 数据 ， 


生成 新 对 象 ， 然而 ，my_sequence[ : ] 是 对 整个 序列 的 浅 复 制 。 不 过 ，memoryview 对 象 
的 切片 虽 是 一 个 memoryview 新 对 象 ， 但 会 与 源 对 象 共享 数据 。 























容器 (container) 


包含 其 他 对 象 引 用 的 对 象 。Python 中 的 大 多 数 集合 类 型 都 是 容器 ， 不 过 有 些 不 是 。 请 
与 平坦 序列 相 比较 ， 这 种 序列 是 集合 ， 但 不 是 容器 。 


弱 引 用 (weak reference) 


一 种 特殊 的 对 象 引 用 方式 ， 不 计 入 指示 对 象 的 引用 计数 。 弱 引用 使 用 weakref 模块 
里 的 某 个 函数 和 数据 结构 创建 。 


上 下 文 管理 器 (context manager) 
实现 了 __enter 和 ”exit _ 特殊 方法 的 对 象 ， 在 with 块 中 使 用 。 
蛇 底 式 (snake_case) 


标识 符 的 一 种 命名 约定 ， 使 用 下 划 线 (_) 连接 单词 ， 例 如 run_until complete。 
PEP-8 把 这 种 风格 称 为 “使 用 下 划 线 分 隔 的 小 写 单词 ?， 建 议 用 于 命名 函数 、 方 法 、 参 数 和 
变量 。PEP-8 建议 包 名 直接 把 各 个 单词 拼接 起 来 ， 不 使 用 分 隔 符 。Python 标准 库 中 有 很 多 
使 用 蛇 底 式 命名 的 标识 符 ， 不 过 也 有 单词 之 间 没 有 分 隔 的 标识 符 〔 例 
ui, getattr. classmethod, isinstance, str.endswith, 4“) 。 参 见 驼峰 式 词 
条 。 
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深 复制 (deep copy) 
复制 对 象 时 把 对 象 的 所 有 属性 一 起 复制 。 请 与 浅 复 制 相 比较 。 
生成 器 (generator) 





























使 用 生成 器 函数 或 生成 器 表达 式 构建 的 迭代 器 ， 无 需 迭 代 集 合 就 可 能 生成 值 。 生 成 斐 
波 纳 契 数 列 的 生成 器 是 个 典型 示例 ， 这 是 一 种 无 穷 数 列 ， 在 集合 中 绝对 放 不 下 。 这 个 术语 
除了 表示 调用 生成 器 函数 得 到 的 对 象 之 外 ， 有 时 还 表示 生成 器 函数 。 
生成 器 表达 式 (generator expression) 


放 在 括号 里 的 表达 式 ， 句 法 与 列表 推导 一 样 ， 不 过 返回 的 不 是 列表 ， 而 是 生成 器 。 
生成 器 表达 式 可 以 理解 为 列表 推导 的 惰性 版 本 。 参 见 惰性 求 值 词 条 。 


生成 器 函数 (generator function) 
定义 体 中 有 yield 关键 字 的 函数 。 调 用 生成 器 函数 得 到 的 是 生成 器 。 















































XE (argument) 


调用 函数 时 传 给 函数 的 表达 式 。 按 照 Python 习惯 的 说 法 ， 实 参 和 形 参 几 乎 等 价 。 关 
于 二 者 的 区 别 以 及 各 自 的 用 途 ， 参 见 形 参 词 条 。 


视图 (view) 


在 Python3 中， 视图 是 一 种 特殊 的 数据 结构 ， 由 字典 的 .keys()、.values() 和 
.items() 方法 返回 ， 作 用 是 在 不 重复 数据 的 前 提 下 ， 提 供 字 典 的 键 和 值 的 动态 视图 。 在 
Python 2 中 ， 那 些 方法 返回 的 是 列表 。 字 典 视图 都 是 可 迭代 的 对 象 ， 支 持 in 运算 符 。 此 
外 ， 如 果 视 图 引用 的 元 素 都 是 可 散 列 的 对 象 ， 那 么 视图 还 实现 了 collections.abc.Set 
接口 。.keys() 方法 返回 的 视图 都 是 这 样 ， 对 .items() 方法 返回 的 视图 来 说 ， 如 果 其 中 
的 值 都 是 可 散 列 的 对 象 ， 那 么 也 是 如 此 。 


视 为 有 害 (considered harmful) 






































Edsger Dijkstra 写 过 一 封 题 为 “Go To Statement Considered Harmful” 的 信函 ， 这 为 批评 
计算 机 科学 技术 的 文章 提供 了 一 种 标题 格式 。 维 基 百 科 中 的 “Considered harmful” — 3X 
(http://en.wikipedia.org/wiki/Considered_ harmful) 列 出 了 很 多 这 种 文章 ， 包 括 Eric A. 
Meyer 写 的 “Considered Harmful Essays Considered 
Harmful” Chttp://meyerweb.com/eric/comment/chech.html) 。 























属性 (attribute ) 


在 Python 中 ， 方 法 和 数据 属性 〈 即 Java 术语 中 的 “字段 ”) 都 是 属性 。 方 法 也 是 属 
性 ， 只 不 过 恰好 是 可 调用 的 对 象 〈 通 常 是 函数 ， 但 也 不 一 定 ) o 


























特殊 方法 (special method) 


名 称 特殊 的 方法 ， 首 尾 各 有 两 条 下 划 线 ， 例 如 __getitem _。Python 中 的 特殊 方法 
几乎 都 在 Python 语言 参考 手册 中 的 “3. Data model” 一 章 
(https://docs.python.org/3/reference/datamodel.html) 做 了 说 明 ， 不 过 在 特定 上 下 文中 使 用 
的 个 别 特殊 方法 在 文档 的 其 他 部 分 里 说 明 。 例 如 ， 了 映射 的 __missing__ 方法 在 Python 标 
准 库 文档 的 “4.10. Mapping Types” 一 节 




















Chttps://docs.python.org/3/library/stdtypes.html#mapping-types-dict) 提 到 。 
统一 访问 原则 Cuniform access principle ) 

Eiffel 语言 之 父 Bertrand Meyer Sih: “不 管 服务 是 由 存储 还 是 计算 实现 的 ， 一 个 模块 
提供 的 所 有 服务 都 应 该 通过 统一 的 方式 使 用 。”* 在 Python 中 ， 可 以 使 用 特性 和 描述 符 实现 
统一 访问 原则 。 由 于 没有 new 运算 符 ， 函 数 调 用 和 对 象 实例 化 看 起 来 相似 ， 这 也 体现 了 
这 一 原则 : 调用 方 无 需 知 道 被 调用 的 对 象 是 类 、 函 数 ， 还 是 其 他 可 调用 的 对 象 。 


托管 类 (managed class) 


使 用 描述 符 对 象 管理 类 中 茶 个 属性 的 类 。 人 参见 描述 符 词 条 。 






























































托管 实例 (managed instance ) 
托管 类 的 实例 。 参 见 托管 属性 和 描述 符 词 条 。 
托管 忆 


由 描述 符 对 象 管理 的 公开 属性 。 虽 然 托管 属性 在 托管 类 中 定义 ， 但 是 作用 相当 于 实 
例 属 性 〈 即 各 个 实例 通常 有 各 自 的 值 ， 存 储 在 储存 属性 中 ) 。 参 见 描述 符 词 条 。 


驼峰 式 〈CamelCase ) 
标识 符 的 一 种 命名 约定 ， 单 词 的 首 字 母 大 写 ， 然 后 连接 起 来 〈 例 如 Connection 


RefusedError) 。PEP-8 建议 类 名 使 用 驼峰 式 ， 但 是 Python 标准 库 没 有 遵守 这 个 建议 。 
参见 蛇 底 式 词 条 。 




















Pam) 











性 (managed attribute ) 

























































































SM FF AR (docstring) 

documentation string 的 简称 。 如 果 模 块 、 类 或 函数 的 第 一 个 语句 是 字符 串 字 面 量 ， 那 
个 字符 串 会 当 作 所 在 对 象 的 文档 字符 串 ， 解 释 器 把 那个 字符 串 存 储 在 对 象 的 __doc_ 属 
性 中 。 另 见 doctest 词 条 。 




















FEU (wart) 


指 Python 语言 的 不 足 。Andrew Kuchling 发 表 过 一 篇 著名 的 文章 “Python warts”， 
仁慈 的 独裁 者 承认 ， 他 在 设计 Python 3 的 过 程 中 受 此 文 影响 ， 决 定 不 向 后 兼容 ， 否 则 无 法 
修正 大 多 数 缺 陷 。Kuchling 提 到 的 多 数 问题 在 Python 3 中 修正 了 。 


像 文件 的 对 象 〈file-like object) 


官方 文档 使 用 的 一 个 非 正式 称呼 ， 指 代 实 现 了 文件 协议 的 对 象 ， 有 read、write 和 
close 等 方法 。 常 见 的 变 体 有 : 逐 行 读 写 ， 包 含 编码 字符 串 的 纯 文 本 文件 ， 作 为 保存 在 内 
存 中 的 纯 文 本 文件 的 Stringi 实例 ;包含 未 编码 的 字 节 的 二 进 制 文件 。 最 后 一 种 可 能 有 
缓冲 ， 也 可 能 没有 缓冲 。 从 Python 2.6 起 ， 这 些 标准 文件 类 型 的 抽象 基 类 在 io 模块 里 。 









































像 字 节 的 对 象 〈bytes-like object) 








泛 指 字 节 序列 。 最 常见 的 像 字 节 的 类 型 有 bytes, bytearray 和 memoryview; 不 
过 ， 支 持 低层 CPython 缓冲 协议 的 对 象 ， 如 果 元 素 是 单个 字 节 ， 那 么 也 属于 此 类 。 


协 程 〈coroutine ) 
用 于 并 发 编程 的 生成 器 ， 从 调度 程序 ， 或 者 通过 coro.send(value) 方法 从 事件 循 


环 中 接收 值 。 这 个 术语 可 以 表示 通过 调用 生成 器 函数 获得 的 生成 器 函数 或 生成 器 对 象 。 参 
见 生成 器 词 条 。 














形 参 (parameter) 


声明 函数 时 指定 的 零 个 或 多 个 “形式 参数 "， 这 些 是 未 绑 定 的 局 部 变量 。 调 用 函数 时 ， 
传 入 的 实 参 (“实际 参数 ”") 会 绑 定 给 这 些 变量 。 在 本 书 中 ， 我 尽量 使 用 实 参 指 代 传 给 函 
数 的 实际 参数 ， 使 用 形 参 指 代 声 明 函 数 时 使 用 的 形式 参数 。 然 而 ， 并 不 一 定 会 始终 这 样 
做 ， 因 为 Python 文档 和 API 经 常 混 用 形 参 和 实 参 。 参 见 实 参 词 条 。 





























虚拟 子 类 (virtual subclass ) 


不 继承 自 超 类 ， 而 是 使 用 TheSuperClass.register(TheSubClass) 注册 的 类 。 参 
JL abc .ABCMeta.register 方法 的 文档 
Chttps://docs.python.org/3/library/abc.html#abc.ABCMeta.register) o 


序列 〈sequence ) 
泛 指 长 度 〈 例 如 ，len(s)) 固定 ， 可 以 使 用 从 零 开始 的 整数 索引 【例如 sio] 获取 
元 素 的 数据 结构 。Python 出 现 伊始 ， 序 列 这 个 词 就 存在 了 ， 不 过 直到 Python 2.6 才 由 


collections.abc.Sequence 确定 为 一 个 抽象 类 。 
































序列 化 (serialization) 

把 对 象 在 内 存 中 的 结构 转换 成 便于 存储 或 传输 的 二 进 制 或 文本 格式 ， 而 且 以 后 可 以 在 
同一 个 系统 或 不 同 的 系统 中 重建 对 象 的 副本 。pickle 模块 能 把 任何 Python 对 象 序列 化 成 
二 进 制 格式 。 

PSF 284 (duck typing) 


多 态 的 一 种 形式 ， 在 这 种 形式 中 ， 不 管 对 象 属 于 哪个 类 ， 也 不 管 声明 的 具体 接口 是 什 
么 ， 只 要 对 象 实现 了 相应 的 方法 ， 函 数 就 可 以 在 对 象 上 执行 操作 。 


一 等 函数 (first-class function) 


在 语言 中 属于 一 等 对 象 的 函数 〔 即 能 在 运行 时 创建 ， 赋 值 给 变量 ， 当 作 参 数 传 入 ， 以 
及 作为 另 一 个 函数 的 返回 值 ) 。Python 中 的 函数 都 是 一 等 函数 。 


引用 计数 (refcount ) 
CPython 内 部 对 各 个 对 象 的 引用 计数 ， 用 于 确定 垃圾 回收 程序 何 时 销毁 对 象 。 





















































FAP se CA (user-defined) 

在 Python 文档 中 ， 用 户 这 个 词 几乎 都 是 指 我 和 你 ， 即 使 用 Python 语言 的 程序 员 。 用 
户 与 实现 Python 解释 器 的 开发 者 是 相对 的 。 因 此 ,“ 用 户 定 义 的 类 ”表示 使 用 Python 编写 
的 类 ， 而 不 是 使 用 C 语言 编写 的 内 置 类 ， 如 str。 
预 激 (prime， 动 词 ) 


在 协 程 上 调用 next(coro)， 让 协 程 向 前 运行 到 第 一 个 yield 表达 式 ， 准 备 好 从 后 续 
的 coro. send(value) 调用 中 接收 值 。 











元 编程 Cmetaprogramming ) 


编写 的 程序 使 用 程序 的 运行 时 信息 改变 程序 的 行为 。 例 如 ，ORM 可 能 会 内 省 模型 类 
KER, 确定 如 何 验证 数据 库 记 录 里 的 字段 ， 以 及 如 何 把 数据 库 类 型 转换 成 Python 类 
型 。 



































元 类 (metaclass) 








实例 为 类 的 类 。 默认 情况 下 ， Pyton 中 的 类 是 类 的 实例 ， 例 如 ，type(int) 得 
到 的 结果 是 type 类 ， 因 此 type 是 元 类 。 用 户 可 以 通过 扩展 type 类 定义 元 类 。 











元 组 拆 包 (tuple unpacking) 


把 可 迭代 对 象 中 的 元 素 赋 值 给 多 个 变量 (例如 ，first，second,， third == 
my_list) 。Python 高 手 通常 使 用 这 个 术语 ， 不 过 也 有 人 使 用 可 迭代 对 象 的 拆 包 。 


FUE (truthy) 


只 要 bool(x) 返回 True, x 就 是 真 值 。 需 要 布尔 值 时 ，Python 会 隐 式 使 用 bool it 
算 对 象 例如 控制 if 和 while 循环 的 表达 式 。 与 此 相对 的 是 假 值 。 


指示 对 象 (referent) 

引用 的 目标 对 象 。 谈 及 弱 引 用 时 最 常 使 用 这 个 术语 。 
装饰 器 (decorator) 

一 个 可 调用 的 对 象 A， 返 回 另 一 个 可 调用 的 对 象 B， 在 可 调用 的 对 象 C 的 定义 体 之 前 
使 用 句法 @A 调用 。Python 解释 器 读 取 这 样 的 代码 时 ， 会 调用 A(C)， 把 返回 的 B 绑 定 给 之 
前 赋予 C 的 变量 ， 也 就 是 把 C 的 定义 体 换 成 B。 如 果 目 标 可 调用 对 象 C 是 函数 ， 那 么 A 是 
函数 装饰 器 ， 如 果 CEEX, MA A 是 类 装饰 器 。 

TEAR (byte string) 
可 异 ， 在 Python 3 中 仍然 使 用 这 个 名 称 指 代 bytes 或 bytearray。 在 Python 2 


H, str 类 型 其 实 是 字 节 字符 串 ， 为 了 把 str 和 unicode 字符 串 区 分 开 ， 才 用 了 这 个 名 
称 。 在 Python 3 中 没 理由 继续 使 用 这 个 术语 了 ， 泛 指 字 节 序列 时 ， 我 都 尽量 使 用 字 节 序 











































































































列 (byte sequence) 这 个 术语 。 


作者 简介 


Luciano Ramalho 在 1995 年 Netscape 首次 公开 募股 以 前 就 是 一 名 Web 开发 者 了 ， 他 先后 
用 过 Perl 和 Java, 1998 年 开始 使 用 Python。 自 那 以 后 ， 他 在 巴西 的 几 个 新 闻 门 户 网 站 工 
作 ， 使 用 Python 做 开发 ， 还 为 巴西 的 媒体 、 银 行 和 政府 部 门 做 Python Web 开发 培训 。 他 
经 常 在 开发 者 大 会 上 演讲 ， 比 如 PyCon US (2013) 、OSCON (2002、2013 和 2014) ， 

还 有 多 年 在 PythonBrasil (在 巴西 举办 的 PyCon) 以 及 FISL《〈 南 半球 最 大 的 FLOSS 大 会 ) 
上 做 过 的 15 次 演讲 。Ramalho 是 Python 软件 基金 会 的 成 员 ， 人 x 间 

Garoa Hacker Clube 的 联合 创始 人 。 他 也 是 培训 公司 Python.pro.br 的 共同 所 有 人 












































关于 封面 


本 书 封面 的 动物 是 纳 马 沙 蜥 〈 学 名 : Pedioplanis namaquensis) ， 身 体 细 长 ， 有 一 条 呈 红 标 
色 的 长 尾巴 。 这 种 沙 晰 有 身体 为 黑色 ， 有 四 条 上 白 纹 ;四 胶 呈 棕色 ， 带 白 点 ;腹部 为 白色 。 


纳 马 沙 蜥 白天 活动 ， 是 速度 最 快 的 蜥 蝎 之 一 。 它 们 栖息 在 草木 稀疏 的 沙砾 平地 ， 冬 季 在 治 
木 从 边 挖 的 洞穴 里 休眠 。 纳 马 沙 蜥 分 布 于 纳米 比 亚 全 境 的 干旱 稀 树 草原 和 半 蕊 并 地 区 ， 以 
小 昆虫 为 食 。 在 11 H, WERF 3~5 ME. 


O'Reilly 出 版 的 图 书 ， 封 面 上 很 多 动物 都 濒临 灭绝 。 这 些 动物 都 是 地 球 的 至 宝 。 如 果 你 想 
知道 如 何 保护 这 些 动物 ， 请 访问 animals.oreillycom。 




































































封面 图 片 出 自 Wood 的 Natural History, Vol 3. 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 答 
疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook.com。 
在 这 里 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 
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